Управление инцидентами
04.03.2010
Главное в управлении инцидентами – это правильно донести до участников, что им надо делать

4 марта CTO компании Continuity Software, Doron Pinhas, предлагает вашему вниманию Вебинар «Downtime Avoidance – Datacenter Management Series«.
В программе Вебинара:
- Почему простои случаются даже при использовании наиболее передового ПО обеспечения высокой доступности;
- Какие уязвимости конфигураций встречаются наиболее часто, и как они могут влиять на нормальный ход деятельности;
- Как переход от периодического тестирования HA-решений к постоянной, автоматизированной верификации конфигураций может повысить показатели восстановления и снизить затраты.
Вебинар пройдет в абсолютно комфортное время – 22:00 по Москве, когда никакие рабочие дела не помешают вам насладиться общением с Дороном
BS25999.ru оn Twitter
23.02.2010
Для удобства читателей теперь все посты блога транслируются в Твиттер.
На российском рынке появился еще один интересный производитель решений в области обеспечения непрерывности ИТ-сервисов – компания Neverfail.- HA – локально (для защиты от сбоев оборудования)
- DR – географически распределенный кластер (для защиты от ЧС)
- Cluster Protector – локальное резервирование делается средствами MS Cluster, а удаленное – средствами Neverfail
- Tetriary – объединение HA и DR.
- Имеет ИТ-инфраструктуру, построенную на серверных технологиях Microsoft (или хочет отдельно зарезервировать часть инфраструктуры, построенную на решениях Microsoft)
- Только начал строить HA/DR инфраструктуру, или существенно ее расширяет (например, оборудует удаленную площадку).
Начало 2010 ознаменовалось для компании Continuity Software сразу двумя важными событиями.
Думаю, что почти все из вас хоть раз, да видели Центр управления инцидентами (ЦУИ). Большая часть – в кино или в новостях, а некоторые и в жизни. Вне зависимости от используемых технологий, специфики отрасли, места нахождения и т.п. функции у такого центра примерно одинаковые:
- Сбор информации о происходящем из всех доступных источников
- Консолидация, верификация и анализ информации
- Управление командами восстановления
- Информирование всех вовлеченных сторон – прессы, официальных органов, родственников потерпевших и т.п.
Теперь немного о технологиях. В течение долгого времени неизменными атрибутами такого центра были:
- Телефоны (много)

- Доски (whiteboards), на которых записывалась вся информация
- Карты, в которые втыкались разнообразные флажки.
В принципе, как и любая проверенная десятилетиями, если не веками, технология, она работает. Надежно? Да. Эффективно? Не очень. Давайте посмотрим, какие основные проблемы возникают.
В последний день прошлого года Минюст зарегистрировал приказ Министерства экономического развития №470 от 16 ноября 2009 года «О требованиях к технологическим, программным и лингвистическим средствам обеспечения пользования официальными сайтами федеральных органов исполнительной власти».
Приказ, среди прочего, устанавливает целевые показатели восстановления для сайтов федеральных органов:
RTO – 4 часа
А если завтра снег?
15.01.2010
Сегодня попалась на глаза статья уважаемого человека, Charlie Maclean-Bristol, написанная им по следам сурового похолодания и снежных заносов, выпавших на долю Великобритании в этом году. Не буду пересказывать статью целиком, но остановлюсь на нескольких моментах, показавшихся мне наиболее интересными, дополнив своими мыслями и рассуждениями.
Случится то происшествие, которого вы не ждете.
Казалось бы, ничего нового, про это говорится от раза к разу, но, несмотря ни на что, зачастую готовимся мы именно к тому, с чем уже сталкивались в обозримом прошлом. Типичный пример тому – меры, принимаемые TSA по обеспечению безопасности полетов после очередных [попыток] терактов, когда защитные меры почему то выстраиваются исходя из предположения, что следующая попытка теракта произойдет в точности по сценарию предыдущей. Мораль – планы обеспечения непрерывности деятельности должны быть:
а) достаточно гибкими
б) рассчитывать на самые худшие сценарии развития ситуации
Не рассчитывайте на работоспособность коммунальных служб
2010 год начался неожиданно бурно, что, впрочем, стало приятной неожиданностью. Похоже, есть шанс, что в этом году наша страна не будет находиться в состоянии затянувшихся каникул до 8 марта, а начнет наверстывать упущенное за прошлый, «кризисный» год.
Мы тоже решили не отставать, и в первом квартале запустили акцию, направленную на то, чтобы те из вас, кто отвечает за непрерывность ИТ-сервисов, начали год с внешнего [инструментального] аудита своих HA/DR решений, чтобы получить дополнительную информацию о том, что необходимо сделать в текущем году, где есть проблемы, о которых вы, возможно, не подозреваете, а где есть возможности для повышения эффектвности, или даже снижения затрат. В качестве инструмента для проведения аудита было выбрано решение RecoverGuard нашего партнера Continuity Software.
А в качестве бонуса тем, кто начнет свой год с повышения отказоустойчивости своей инфраструктуры достанется поездка в Израиль - короткий курс по принципам работы системы в учебном центре Continuity Software в Тель-Авиве, reference visit в одну из компаний-пользователей RecoverGuard, ну и возможность немного отдохнуть и поплавать под ласковым израильским солнцем – март-апрель самое подходящее время для визита в эту страну.
Более подробную информацию о нашей акции можно посмотреть здесь.
Сегодня на российском блоге VMware проскочил вполне доходчивый пост о том, как обеспечить непрерывность работы VMware Virtual Center. Речь идет про продукт VMware vCenter Server Heartbeat, в девичестве – продукт компании NeverFail, о решениях которой я напишу существенно более подробно в течение ближайшей недели-двух. VMware Russia – прошу любить и жаловать



