На российском рынке появился еще один интересный производитель решений в области обеспечения непрерывности ИТ-сервисов – компания Neverfail.- HA – локально (для защиты от сбоев оборудования)
- DR – географически распределенный кластер (для защиты от ЧС)
- Cluster Protector – локальное резервирование делается средствами MS Cluster, а удаленное – средствами Neverfail
- Tetriary – объединение HA и DR.
- Имеет ИТ-инфраструктуру, построенную на серверных технологиях Microsoft (или хочет отдельно зарезервировать часть инфраструктуры, построенную на решениях Microsoft)
- Только начал строить HA/DR инфраструктуру, или существенно ее расширяет (например, оборудует удаленную площадку).
Думаю, что почти все из вас хоть раз, да видели Центр управления инцидентами (ЦУИ). Большая часть – в кино или в новостях, а некоторые и в жизни. Вне зависимости от используемых технологий, специфики отрасли, места нахождения и т.п. функции у такого центра примерно одинаковые:
- Сбор информации о происходящем из всех доступных источников
- Консолидация, верификация и анализ информации
- Управление командами восстановления
- Информирование всех вовлеченных сторон – прессы, официальных органов, родственников потерпевших и т.п.
Теперь немного о технологиях. В течение долгого времени неизменными атрибутами такого центра были:
- Телефоны (много)

- Доски (whiteboards), на которых записывалась вся информация
- Карты, в которые втыкались разнообразные флажки.
В принципе, как и любая проверенная десятилетиями, если не веками, технология, она работает. Надежно? Да. Эффективно? Не очень. Давайте посмотрим, какие основные проблемы возникают.
А если завтра снег?
15.01.2010
Сегодня попалась на глаза статья уважаемого человека, Charlie Maclean-Bristol, написанная им по следам сурового похолодания и снежных заносов, выпавших на долю Великобритании в этом году. Не буду пересказывать статью целиком, но остановлюсь на нескольких моментах, показавшихся мне наиболее интересными, дополнив своими мыслями и рассуждениями.
Случится то происшествие, которого вы не ждете.
Казалось бы, ничего нового, про это говорится от раза к разу, но, несмотря ни на что, зачастую готовимся мы именно к тому, с чем уже сталкивались в обозримом прошлом. Типичный пример тому – меры, принимаемые TSA по обеспечению безопасности полетов после очередных [попыток] терактов, когда защитные меры почему то выстраиваются исходя из предположения, что следующая попытка теракта произойдет в точности по сценарию предыдущей. Мораль – планы обеспечения непрерывности деятельности должны быть:
а) достаточно гибкими
б) рассчитывать на самые худшие сценарии развития ситуации
Не рассчитывайте на работоспособность коммунальных служб
Непрерывность бизнеса и комсомольская пресса
06.12.2009
Жизнь учит нас, что ничему не учит… Точнее, учиться на чужих ошибках нам не интересно.
Люди, профессионально занимающиеся непрерывностью бизнеса, могут пропустить этот пост – это из серии «наболело». Постараюсь изложить свои эмоции, не используя профессиональных терминов с одной стороны, и нецензурных выражений с другой.
Три с половиной года назад сгорела редакция Комсомольской правды.
По заявлениям самой КП, «Номер, который уже был готов к подписанию, пришлось переписывать заново, потому что сгорели все серверы и вышли из строя компьютеры. Приютила нас на три дня «Экспресс-газета», которая находилась в соседнем здании. Ущерб от пожара насчитывает около 2 миллионов долларов.»
Сколько из этих двух миллионов пришлось на сгоревшие материальные ценности – я не знаю. Неизвестно также, пытался ли кто-то оценивать безвозвратно потерянную информацию. В любом случае - «Годы работы по созданию одного из крупнейших фотоархивов страны пошли насмарку. В редакции сгорели тысячи дисков с фотографиями за десятки лет. Выгорела ценнейшая библиотека.» [пруфлинк - здесь]
Теперь давайте посмотрим, что произошло на этой неделе с сайтом «Московского комсомольца». По сообщению самого МК, «Неустановленные пока злоумышленники атаковали интернет-сайт нашей газеты. В результате была уничтожена значительная часть информации на mk.ru, и ресурс был некоторое время недоступен для посетителей.[...] Команда сайта работает над восстановлением ресурса в первоначальном виде. К счастью, все тексты публикаций сохранились, однако значительная часть графических- и видеоматериалов была утрачена.»
Несмотря на то, что прямых материальных потерь не было (в смысле, ничего не сгорело, не было украдено и т.п.), по словам главного редактора МК «к сожалению, мы понесли большие финансовые потери, потому что появились большие вопросы с рекламодателями.»
В сухом остатке – безвозвратно погиб архив (или его часть), и на неопределенное время нарушена работоспособность сайта, являющегося, в частности, достаточно крупной рекламной площадкой.
Давайте теперь посмотрим, что общего в этих случаях, и что можно было бы сделать, чтобы избежать столь серьезных последствий.
С начала октября мы принимаем участие в бета-тестировании новой версии продукта для проведения анализа воздействия на бизнес – Business Impact Analysis Professional компании SunGard Availability Services. По нашей оценке, продукт уже достиг достаточного уровня стабильности работы, чтобы о нем было не стыдно рассказывать, и, предваряя примерно на месяц выход коммерческой версии, сегодня я расскажу об основных возможностях продукта.
Для тех читателей, которые не знакомы с функциональностью предыдущих версий, несколько слов о том, для чего предназначен BIA Professional. Продукт позволяет автоматизировать рутинную часть работы по проведению анализа воздействия на бизнес, а именно - подготовку анкет/опросных листов, рассылку их анкетируемым сотрудникам, сбор, консолидацию и последующий анализ информации. Что немаловажно, продукт позволяет обеспечить повторное использование информации – при регулярном обновлении результатов BIA, пользователям не надо заново отвечать на те же самые вопросы, а достаточно только проглядеть сохраненные старые ответы, и, при необходимости, внести корректировки.
Перед тем, как начать описывать возможности продукта, я бы хотел сделать акцент на том, в каких случаях организации действительно нужен BIA Professional, чтобы получить адекватную отдачу от сделанных инвестиций. Давайте рассмотрим три критерия, каждый из которых может послужить достаточным аргументом для приобретения продукта.
- Масштаб организации. Если в процессе проведения анализа воздействия на бизнес вам приходится проводить анкетирование значительного числа сотрудников, то BIA Professional может оказаться существенным подспорьем. По моему опыту, собрать и консолидировать информацию даже из 50 анкет – это уже серьезный труд.
- Динамика организации. Если бизнес-процессы, внутренняя или внешняя среда организации подвержены частым изменениям, то скорее всего вам приходится обновлять результаты BIA 1-2 раза в год. Как следствие, этот процесс будет регулярно требовать отвлечения от основной деятельности большого числа руководителей среднего и высшего звена, и крайне важно минимизировать затраты их времени.
- Методология. Если вы хотите быть уверенным, что весь процесс BIA, начиная со сбора информации, и заканчивая подготовкой финальных отчетов, происходит в строгом соответстии с разработанной вами формальной методикой, средства автоматизации позволят вам добиться этого результата. Более того, вы можете предъявить этот факт при аудите вашей системы обеспечения непрерывности деятельности (будь то аудит Банка России по 242-П, или аудит на соответствие BS 25999).
Основной экран системы теперь выглядит таким образом:
На сегодняшний день в CMS интегрировано 3 продукта - BIA, Risk Assessment и LDRPS. Оставшиеся Incident Manager и Notifind обладают механизмами интеграции, но пока функционируют на другой платформе.
Выбрав BIA Professional, мы «проваливаемся» в основное меню системы.
То, что мы видим на экране системы, предназначено для администратора, интерфейс для конечного пользователя, анкетируемого сотрудника, значительно проще, до него мы дойдем чуть позже. Прочитать сообщение полностью »
В начале октября компания VMware выпустила новую версию своего продукта для обеспечения послеаварийного восстановления – Site Recovery Manager 4.0.
В честь этого события я решил сделать небольшой обзор HA/DR решений от VMware с целью более корректного позиционирования решений и понимания существующих ограничений. Этот текст предназначен не для продвинутых инженеров VMware, которые вряд ли найдут здесь что-то новое для себя, но для специалистов, определяющих архитектуру HA/DR решений, и желающих понять возможности, предоставляемые продуктами VMware.
VMware High Availability (HA)
VMware HA позволяет в случае выхода из строя одного из серверов кластера ESX перезапустить все гостевые машины на оставшихся серверах. Решение является аналогом Active-Passive кластера из мира «железных» серверов, за исключением того, что не возникает проблем расхождения конфигураций, которая серьезно осложняет жизнь администраторов, обслуживающих большой парк серверов. Незначительным недостатком данного решения является определенное, хотя и небольшое, время восстановления (RTO), необходимое на перезапуск вирутальной машины.VMware Fault Tolerance (FT)
VMware FT отчасти напоминает Active-Active кластер, но при ближайшем рассмотрении фунционирует принципиально по другому. Целью использования FT является обеспечение практически нулевого RTO в случае выхода из строя сервера ESX. Достигается это параллельным выполнением виртуальных машин на двух соседних серверах на уровне параллельного выполнения команд процессора. При этом весь вывод на дублирующей виртуальной машине подавляется на уровне гипервизора. Основным ограничением данной технологии на сегодняшний момент является невозможность использования FT для виртуальных машин с числом процессоров больше одного, а также невозможность создания FT кластера из машин, построенных на процессорах различной архитектуры. Кроме того, естественным ограничением является требование хранения виртуальных машин на разделяемой СХД.VMware Site Recovery Manager (SRM)
В отличие от двух предыдущих решений, обеспечивающих локальные отказоустойчивые решения, SRM позволяет создавать распределенные решения для послеаварийного восстановления.- Поддержка vSphere;
- Возможность работать с shared DR сайтами, что позволяет использовать один DR сайт для резервирования нескольких основных сайтов;
- Поддержка переноса машин, работающих в режиме Fault Tolerance;
- Расширенная поддержка СХД – NFS, iSCSI, Fiber Channel.
NFPA 1600 и iPhone
17.07.2009
NFPA (National Fire Protection Association) выпустила свой стандарт NFPA 1600 Standard on Disaster/Emergency Management and Business Continuity Programs в формате интерактивного приложения для iPhone. Можно просто почитать, можно походить по ссылкам, которых там много, позвонить по телефонам для экстренного реагирования и проч.
Приложение получилось простое, но удобное. На мой взгляд, кроме популяризации самого стандарта NFPA 1600, достаточно интересная идея, как в удобной форме донести до людей планы реагирования в чрезвычайных ситуациях.
Приложение можно бесплатно загрузить из iTunes App Store. Единственное ограничение - требует наличия версии 3.0.
Официальный пресс-релиз NFPA – здесь.


