Главное в управлении инцидентами – это правильно донести до участников, что им надо делать :)

4 марта CTO компании Continuity Software, Doron Pinhas, предлагает вашему вниманию Вебинар «Downtime Avoidance – Datacenter Management Series«.

В программе Вебинара:

  • Почему простои случаются даже при использовании наиболее передового ПО обеспечения высокой доступности;
  • Какие уязвимости конфигураций встречаются наиболее часто, и как они могут влиять на нормальный ход деятельности;
  • Как переход от периодического тестирования HA-решений к постоянной, автоматизированной верификации конфигураций может повысить показатели восстановления и снизить затраты.

Вебинар пройдет в абсолютно комфортное время – 22:00 по Москве, когда никакие рабочие дела не помешают вам насладиться общением с Дороном :)

Ссылка для регистрации тут.

Для удобства читателей теперь все посты блога транслируются в Твиттер.

На российском рынке появился еще один интересный производитель решений в области обеспечения непрерывности ИТ-сервисов – компания Neverfail.
В двух словах – решение предназначено для резервирования критически важных приложений (именно приложений, а не серверов) на базе серверных технологий Microsoft. В качестве примера – VMware OEM’ит технологию Neverfail для защиты своего vCenter – так называемый VMware vCenter Server Heartbeat, о чем я уже писал некоторое время назад. Акцент на слове «приложения» я сделал сознательно, т.к. NeverFail «понимает» определенное количество приложений, и что им нужно для нормального функционирования. Это может быть как один сервер, так и несколько - например, решение по резервированию почтового сервера BlackBerry Enterprise Server включает в себя резервирование Exchange, Sharepoint, Antivirus, SQL Server. Как они увязаны между собой, в какой последовательности поднимать какие сервера – об этом всем заботится сам Neverfail.
Резервировать приложения можно в четырех режимах:
  • HA – локально (для защиты от сбоев оборудования)
  • DR – географически распределенный кластер  (для защиты от ЧС)
  • Cluster Protector – локальное резервирование делается средствами MS Cluster, а удаленное – средствами Neverfail
  • Tetriary – объединение HA и DR.
При работе через WAN используется проприетарный механизм дедупликации, за счет чего заметно сокращается требование к ширине канала.
Еще из приятных вещей – возможность строить любые комбинации из виртуальных и физических серверов – можно делать резервированиеP-P (physical-to-physical), P-V (physical-to-virtual), V-V (virtual-to-virtual). В режиме Tetriary комбинаций еще больше :) Появляется возможность, например,  cэкономить на оборудовании для резервной площадки, при ее совместном использовании несколькими компаниями (в варианте physical-to-virtual).
На мой взгляд решение может быть интересно тем, кто:
  1. Имеет ИТ-инфраструктуру, построенную на серверных технологиях Microsoft (или хочет отдельно зарезервировать часть инфраструктуры, построенную на решениях Microsoft)
  2. Только начал строить HA/DR инфраструктуру, или существенно ее расширяет (например, оборудует удаленную площадку).
Например, банки среднего размера, озаботившиеся обеспечением соответствия требованиям положения 242-П. Если ядро банковской системы построено на технологиях Microsoft, то решение от Neverfail – быстрый и достаточно простой вариант.

Начало 2010 ознаменовалось для компании Continuity Software сразу двумя важными событиями.

Практически одновременно с этим на рынок была выпущена новая версия - RecoverGuard 5.0, о возможностях которой я расскажу поподробнее.

Думаю, что почти все из вас  хоть раз, да видели Центр управления инцидентами (ЦУИ). Большая часть – в кино или в новостях, а некоторые и в жизни. Вне зависимости от используемых технологий, специфики отрасли, места нахождения и т.п. функции у такого центра примерно одинаковые:

  • Сбор информации о происходящем из всех доступных источников
  • Консолидация, верификация и анализ информации
  • Управление командами восстановления
  • Информирование всех вовлеченных сторон – прессы, официальных органов, родственников потерпевших и т.п.

Теперь немного о технологиях. В течение долгого времени неизменными атрибутами такого центра были:

  • Телефоны (много)
  • Доски (whiteboards), на которых записывалась вся информация
  • Карты, в которые втыкались разнообразные флажки.

В принципе, как и любая проверенная десятилетиями, если не веками, технология, она работает. Надежно? Да. Эффективно? Не очень. Давайте посмотрим, какие основные проблемы возникают.

Прочитать сообщение полностью »

В последний день прошлого года Минюст зарегистрировал приказ  Министерства экономического развития №470 от 16 ноября 2009 года «О требованиях к технологическим, программным и лингвистическим средствам обеспечения пользования официальными сайтами федеральных органов исполнительной власти».

Приказ, среди прочего, устанавливает целевые показатели восстановления для сайтов федеральных органов:

RTO – 4 часа

Прочитать сообщение полностью »

Сегодня попалась на глаза статья уважаемого человека, Charlie Maclean-Bristol, написанная им по следам сурового похолодания и снежных заносов, выпавших на долю Великобритании в этом году. Не буду пересказывать статью целиком, но остановлюсь на нескольких моментах, показавшихся мне наиболее интересными, дополнив своими мыслями и рассуждениями.

Случится то происшествие, которого вы не ждете.

Казалось бы, ничего нового, про это говорится от раза к разу, но, несмотря ни на что, зачастую готовимся мы именно к тому, с чем уже сталкивались в обозримом прошлом. Типичный пример тому – меры, принимаемые TSA по обеспечению безопасности полетов после очередных [попыток] терактов, когда защитные меры почему то выстраиваются исходя из предположения, что следующая попытка теракта произойдет в точности по сценарию предыдущей. Мораль – планы обеспечения непрерывности деятельности должны быть:
а) достаточно гибкими
б) рассчитывать на самые худшие сценарии развития ситуации

Не рассчитывайте на работоспособность коммунальных служб

Прочитать сообщение полностью »

2010 год начался неожиданно бурно, что, впрочем, стало приятной неожиданностью. Похоже, есть шанс, что в этом году наша страна не будет находиться в состоянии затянувшихся каникул до 8 марта, а начнет наверстывать упущенное за прошлый, «кризисный» год.

Мы тоже решили не отставать, и в первом квартале запустили акцию, направленную на то, чтобы те из вас, кто отвечает за непрерывность ИТ-сервисов, начали год с внешнего [инструментального] аудита своих HA/DR решений, чтобы получить дополнительную информацию о том, что необходимо сделать в текущем году, где есть проблемы, о которых вы, возможно, не подозреваете, а где есть возможности для повышения эффектвности, или даже снижения затрат. В качестве инструмента для проведения аудита было выбрано решение RecoverGuard нашего партнера Continuity Software.

А в качестве бонуса тем, кто начнет свой год с повышения отказоустойчивости своей инфраструктуры достанется поездка в Израиль - короткий курс по принципам работы системы в учебном центре Continuity Software в Тель-Авиве, reference visit в одну из компаний-пользователей RecoverGuard, ну и возможность немного отдохнуть и поплавать под ласковым израильским солнцем – март-апрель самое подходящее время для визита в эту страну.

Более подробную информацию о нашей акции можно посмотреть здесь.

Сегодня на российском блоге VMware проскочил вполне доходчивый пост о том, как обеспечить непрерывность работы VMware Virtual Center. Речь идет про продукт VMware vCenter Server Heartbeat, в девичестве – продукт компании NeverFail, о решениях которой я напишу существенно более подробно в течение ближайшей недели-двух. VMware Russia – прошу любить и жаловать :)