Начало 2010 ознаменовалось для компании Continuity Software сразу двумя важными событиями.

Практически одновременно с этим на рынок была выпущена новая версия - RecoverGuard 5.0, о возможностях которой я расскажу поподробнее.

В последний день прошлого года Минюст зарегистрировал приказ  Министерства экономического развития №470 от 16 ноября 2009 года «О требованиях к технологическим, программным и лингвистическим средствам обеспечения пользования официальными сайтами федеральных органов исполнительной власти».

Приказ, среди прочего, устанавливает целевые показатели восстановления для сайтов федеральных органов:

RTO – 4 часа

Прочитать сообщение полностью »

Сегодня попалась на глаза статья уважаемого человека, Charlie Maclean-Bristol, написанная им по следам сурового похолодания и снежных заносов, выпавших на долю Великобритании в этом году. Не буду пересказывать статью целиком, но остановлюсь на нескольких моментах, показавшихся мне наиболее интересными, дополнив своими мыслями и рассуждениями.

Случится то происшествие, которого вы не ждете.

Казалось бы, ничего нового, про это говорится от раза к разу, но, несмотря ни на что, зачастую готовимся мы именно к тому, с чем уже сталкивались в обозримом прошлом. Типичный пример тому – меры, принимаемые TSA по обеспечению безопасности полетов после очередных [попыток] терактов, когда защитные меры почему то выстраиваются исходя из предположения, что следующая попытка теракта произойдет в точности по сценарию предыдущей. Мораль – планы обеспечения непрерывности деятельности должны быть:
а) достаточно гибкими
б) рассчитывать на самые худшие сценарии развития ситуации

Не рассчитывайте на работоспособность коммунальных служб

Прочитать сообщение полностью »

2010 год начался неожиданно бурно, что, впрочем, стало приятной неожиданностью. Похоже, есть шанс, что в этом году наша страна не будет находиться в состоянии затянувшихся каникул до 8 марта, а начнет наверстывать упущенное за прошлый, «кризисный» год.

Мы тоже решили не отставать, и в первом квартале запустили акцию, направленную на то, чтобы те из вас, кто отвечает за непрерывность ИТ-сервисов, начали год с внешнего [инструментального] аудита своих HA/DR решений, чтобы получить дополнительную информацию о том, что необходимо сделать в текущем году, где есть проблемы, о которых вы, возможно, не подозреваете, а где есть возможности для повышения эффектвности, или даже снижения затрат. В качестве инструмента для проведения аудита было выбрано решение RecoverGuard нашего партнера Continuity Software.

А в качестве бонуса тем, кто начнет свой год с повышения отказоустойчивости своей инфраструктуры достанется поездка в Израиль - короткий курс по принципам работы системы в учебном центре Continuity Software в Тель-Авиве, reference visit в одну из компаний-пользователей RecoverGuard, ну и возможность немного отдохнуть и поплавать под ласковым израильским солнцем – март-апрель самое подходящее время для визита в эту страну.

Более подробную информацию о нашей акции можно посмотреть здесь.

Сегодня на российском блоге VMware проскочил вполне доходчивый пост о том, как обеспечить непрерывность работы VMware Virtual Center. Речь идет про продукт VMware vCenter Server Heartbeat, в девичестве – продукт компании NeverFail, о решениях которой я напишу существенно более подробно в течение ближайшей недели-двух. VMware Russia – прошу любить и жаловать :)

С 12 января 2010 года вступают в силу два российских стандарта по непрерывности бизнеса, «идентичные национальным стандартам Великобритании BS 25999-x». Стандарты носят легко запоминающийся номер 53647.x (ГОСТ Р 53647.1 − 2009 «Менеджмент непрерывности бизнеса. Часть 1. Практическое руководство» и ГОСТ Р 53647.2 − 2009 «Менеджмент непрерывности бизнеса. Часть 1. Требования»).

Перевод не вызывает желания сказать «вау», поэтому при прочих равных я бы рекомендовал пользоваться первоисточником. Тем не менее, наличие отечественного стандарта в данной области – факт без сомнения позитивный.

В конце ноября первый оператор связи получил сертификат соответствия BS 25999-2:2007. Им стала британская Telefónica O2 UK Ltd, а сертификацию провел BSI – откровенный лидер на этом рынке. Что радует, областью сертификации было выбрано «оказание услуг мобильной связи», т.е. действительно ключевая услуга для оператора.

В тот же день аналогичный сертификат получила и PricewaterhouseCoopers LLP. Здесь примечательно то, что сертифицирован был 41 офис компании в Великобритании, и их перечень занял 6 из 7 страниц сертификата :) Органом по сертификации опять же выступил BSI, что, к моему удивлению, не было отражено в пресс-релизе компании.

Даже особенно нечего и добавить – молодцы коллеги, так держать.

Анализируя запросы, по которым читатели попадают на этот блог, я обратил внимание, что достаточно большой процент запросов посвящен поиску типовых планов ОНиВД для банков. Потребность вполне обоснованная – банковская сфера на сегодняшний день единственная в России, где присутствует четкое регулирование в области непрерывности деятельности (Положение Банка России №242-П). При этом, если крупные банки могут себе позволить выделенный персонал и привлечение внешних консультантов для выполнения этой работы, то в средних и малых банках функция ОНиВД как правило дается «в нагрузку» кому-то из уже существующих сотрудников.

Внутри своей компании мы уже обсуждали возможность сделать типовое решение для банков, которое позволит провести анализ воздействия на бизнес, оценку рисков и на основе собранной информации сформировать типовой план ОНиВД. В США такое решение достаточно успешно функционирует – система PlaNET, разработанная SunGard Availability Solutions на основе продуктов LDRPS и BIA Professional с ограниченной функциональностью. Основные ограничения, внесенные в продукт  -  это невозможность изменения шаблонов планов, опросных листов и т.п. Взамен этого заказчик получает встроенную в продукт методологию проведения анализа  воздействия на бизнес, оценки рисков и типовые планы, учитывающие специфику банковской деятельности.

Со своей стороны, мы (Алмитек) готовы сделать типовое решение по созданию планов ОНиВД на движке Continuity Management Solution, включающем в себя BIA Professional, Risc Assessment и LDRPS. Но для того, чтобы этот проект был успешен, нам необходимо две вещи:

  • Реальный интерес к продукту со стороны рынка, подтвержденный готовностью платить за такой сервис сумму порядка 30 тыс. рублей в месяц;
  • Несколько банков, которые согласятся выступить первыми пользователями решения, и примут участие в опытной эксплуатации продукта. Взамен эти банки получат более выгодные условия предоставления данного сервиса.

Если вы представляете банк, которому может быть интересно либо использовать готовый сервис, либо принять участие в его создании, я буду признателен за короткое письмо на адрес bcp@almitech.ru, в котором вы обозначите ваш интерес к решению.

С начала октября мы принимаем участие в бета-тестировании новой версии продукта для проведения анализа воздействия на бизнес – Business Impact Analysis Professional компании SunGard Availability Services. По нашей оценке, продукт уже достиг достаточного уровня стабильности работы, чтобы о нем было не стыдно рассказывать, и, предваряя примерно на месяц выход коммерческой версии, сегодня я расскажу об основных возможностях продукта.

Для тех читателей, которые не знакомы с функциональностью предыдущих версий, несколько слов о том, для чего предназначен BIA Professional. Продукт позволяет автоматизировать рутинную часть работы по проведению анализа воздействия на бизнес, а именно - подготовку анкет/опросных листов, рассылку их анкетируемым сотрудникам, сбор, консолидацию и последующий анализ информации. Что немаловажно, продукт позволяет обеспечить повторное использование информации – при регулярном обновлении результатов BIA, пользователям не надо заново отвечать на те же самые вопросы,  а достаточно только проглядеть сохраненные старые ответы, и, при необходимости, внести корректировки.

Перед тем, как начать описывать возможности продукта, я бы хотел сделать акцент на том, в каких случаях организации действительно нужен BIA Professional, чтобы получить адекватную отдачу от сделанных инвестиций. Давайте рассмотрим три критерия, каждый из которых может послужить достаточным аргументом для приобретения продукта.

  1. Масштаб организации. Если в процессе проведения анализа воздействия на бизнес вам приходится проводить анкетирование значительного числа сотрудников, то BIA Professional может оказаться существенным подспорьем. По моему опыту, собрать и консолидировать информацию даже из 50 анкет – это уже серьезный труд.
  2. Динамика организации. Если бизнес-процессы, внутренняя или внешняя среда организации подвержены частым изменениям, то скорее всего вам приходится обновлять результаты BIA 1-2 раза в год. Как следствие, этот процесс будет регулярно требовать отвлечения от основной деятельности большого числа руководителей среднего и высшего звена, и крайне важно минимизировать затраты их времени.
  3. Методология. Если вы хотите быть уверенным, что весь процесс BIA, начиная со сбора информации, и заканчивая подготовкой финальных отчетов, происходит в строгом соответстии с разработанной вами формальной методикой, средства автоматизации позволят вам добиться этого результата. Более того, вы можете предъявить этот факт при аудите вашей системы обеспечения непрерывности деятельности (будь то аудит Банка России по 242-П, или аудит на соответствие BS 25999).
Теперь давайте посмотрим, какие возможности предоставляет BIA Professional версии 10. Что появилось нового по сравнению с предыдущей версией? Во-первых,  продукт полностью интегрирован с LDRPS 10, а если быть точнее, то все продукты SunGard теперь становятся частью единой системы – Continuity Management Solution (CMS). Это больше, чем маркетинговый шаг – все компоненты CMS используют одну и ту же платформу, хранят свои данные в единой СУБД и используют общий механизм управления пользователями.

Основной экран системы теперь выглядит таким образом:

На сегодняшний день в CMS интегрировано 3 продукта - BIA, Risk Assessment и LDRPS. Оставшиеся Incident Manager и Notifind обладают механизмами интеграции, но пока функционируют на другой платформе.

Выбрав BIA Professional, мы «проваливаемся» в основное меню системы. То, что мы видим на экране системы, предназначено для администратора, интерфейс для конечного пользователя, анкетируемого сотрудника, значительно проще, до него мы дойдем чуть позже. Прочитать сообщение полностью »

В начале октября  компания VMware выпустила новую версию своего продукта для обеспечения послеаварийного восстановления – Site Recovery Manager 4.0. 

В честь этого события я решил сделать небольшой обзор HA/DR решений от VMware с целью более корректного позиционирования решений и понимания существующих ограничений. Этот текст предназначен не для продвинутых инженеров VMware, которые вряд ли найдут здесь что-то новое для себя, но для специалистов, определяющих архитектуру HA/DR решений, и желающих понять возможности, предоставляемые продуктами VMware.

VMware High Availability (HA)

VMware High AvailabilityVMware HA позволяет в случае выхода из строя одного из серверов кластера ESX перезапустить все гостевые машины на оставшихся серверах. Решение является аналогом Active-Passive кластера из мира «железных» серверов, за исключением того, что не возникает проблем расхождения конфигураций, которая серьезно осложняет жизнь администраторов, обслуживающих большой парк серверов. Незначительным недостатком данного решения является определенное, хотя и небольшое, время восстановления (RTO), необходимое на перезапуск вирутальной машины.
VMware HA не требует дополнительного лицензирования, доступен для vSphere, начиная с версии Essential Plus.

 VMware Fault Tolerance (FT)

VMware Fault ToleranceVMware FT отчасти напоминает Active-Active кластер, но при ближайшем рассмотрении фунционирует принципиально по другому. Целью использования FT является обеспечение практически нулевого RTO в случае выхода из строя сервера ESX. Достигается это параллельным выполнением виртуальных машин на двух соседних серверах на уровне параллельного выполнения команд процессора. При этом весь вывод на дублирующей виртуальной машине подавляется на уровне гипервизора. Основным ограничением данной технологии на сегодняшний момент является невозможность использования FT для виртуальных машин с числом процессоров больше одного, а также невозможность создания FT кластера из машин, построенных на процессорах различной архитектуры. Кроме того, естественным ограничением является требование хранения виртуальных машин на разделяемой СХД.
VMware FT не требует дополнительного лицензирования, доступен для vSphere, начиная с версии Advanced.

VMware Site Recovery Manager (SRM)

В отличие от двух предыдущих решений, обеспечивающих локальные отказоустойчивые решения, SRM позволяет создавать распределенные решения для послеаварийного восстановления.
На DR-сайте разворачивается самостоятельная виртуальная инфраструктура, по мощности достаточная для выполнения виртуальных машин, которые планируется перенести в случае выхода из строя основного сайта. Из дополнительных элементов на обоих площадках разворачивается vCenter Site Recovery Manager.
В момент чрезвычайной ситуации отрабатывается план(ы) послеаварийного восстановления, которые определяют последовательность «выключения» виртуальных машин на основном сайте (если он доступен), и их запуска на DR сайте. Если в «мирное» время DR сайт используется для решения других задач, то SRM позволяет перед выполнением плана аварийного восстановления временно перевести в оффлайн функционирующие на сайте машины, и начать их восстановление  после того, как отработает DR план.
 Из основных отличий SRM версии 4 от предыдущей версии:
  • Поддержка vSphere;
  • Возможность работать с shared DR сайтами, что позволяет использовать один DR сайт для резервирования нескольких основных сайтов;
  • Поддержка переноса машин, работающих в режиме Fault Tolerance;
  • Расширенная поддержка СХД – NFS, iSCSI, Fiber Channel.
При использовании решения важно учитывать, что SRM никоим образом не обеспечивает репликацию данных – образы виртуальных машин реплицируются средствами СХД.
Site Recovery Manager лицензируется, как отдельный продукт.