Вы действительно протестировали свой план аварийного восстановления?

Опубликовано: 14 Марта, 2023
Вы действительно протестировали свой план аварийного восстановления?

В начале прошлой зимы, до того, как началась вся эта пандемия, я был на конференции, разговаривал с парой администраторов, которые раньше управляли центрами обработки данных. Один из них когда-то пережил полномасштабную аварию, в результате которой местная электросеть была отключена на несколько дней, и размах этого события выявил несколько недостатков в плане готовности к авариям и плане восстановления этого центра обработки данных. Пока мы обменивались комментариями, один из них сказал что-то, что прочно засело у меня в голове:

Ключевое слово здесь «должным образом», и это привело к дискуссии о том, что такое надлежащая готовность к стихийным бедствиям для ИТ-специалиста. В конце нашего обсуждения мы решили, что на самом деле у нас нет хорошего ответа на наш вопрос.

Вот почему. То, что часто случается во время стихийного бедствия, является неожиданным и, следовательно, незапланированным. В случае с моим коллегой произошло следующее: когда отключилась электросеть в районе, где располагался центр обработки данных, сработал ИБП, включились дизельные генераторы, и серверы снова начали загружаться. Затем генераторы снова отключились через несколько минут и больше не включались. Что произошло?

В чем дело?

Находившаяся в то время костяк бригады быстро приступила к расследованию того, что могло быть не так, но вскоре ничего не добилась. В конце концов, один из них предложил выглянуть наружу, чтобы посмотреть, не происходит ли чего-нибудь странного. При осмотре генераторов, которые находились снаружи здания, было обнаружено, что воздушные фильтры забиты чем-то вроде пуха. Более позднее расследование показало, что этот пух, вероятно, произошел от многочисленных одуванчиков, которые буйно росли на нескошенной траве на пустыре рядом с центром обработки данных. Означает ли это, что пренебрежение регулярными работами по благоустройству должно быть включено в процедуру проверки готовности ИТ к авариям?

Пока мы размышляли над этим, один из других администраторов в нашей группе рассказал историю, которую он услышал от коллеги, которая иллюстрирует аналогичную проблему при надлежащей подготовке центра обработки данных к возможным стихийным бедствиям. Он слышал о том, что в дата-центре вышла из строя электросеть, включились генераторы, и все вроде бы в порядке. Затем через несколько часов генераторы закашлялись и умерли.

План аварийного восстановления и реальный мир

Изображение 337
Шаттерсток

Расследование быстро показало, что резервуар для хранения дизельного топлива на крыше здания был пуст, хотя всего две недели назад было подтверждено, что он был полным. В нем не было никаких утечек; однако проблема заключалась в том, что бак был слишком мал, чтобы вместить топливо, необходимое для генераторов, более чем на несколько часов. Клиенты, которые использовали центр обработки данных, были справедливо расстроены произошедшим сбоем, а компания, которой принадлежал центр обработки данных, жестко обрушилась на менеджера центра обработки данных за установку такого маленького топливного бака на крыше. Но в конце концов с менеджера сняли вину за любую вину в этом вопросе, потому что выяснилось, что местное гражданское правительство издало постановление, запрещающее размещать большие баки с горючим на крышах зданий. И когда они строили дата-центр, они подали заявку на специальное разрешение на отмену постановления, но в этом было отказано — вероятно, правильно, потому что было бы нехорошо, если бы бак каким-то образом дал течь и океаны дизельного топлива пропитались снаружи. здание и прилегающая к нему территория. Означает ли это, что вы должны разработать свой план аварийного восстановления с армией юристов, прежде чем он будет одобрен руководством?

Это побудило другого члена нашей группы поделиться другой историей в том же духе. Он слышал о центре обработки данных, в котором на крыше был построен небольшой резервуар для сбора дизельного топлива, а в подвале — основной резервуар большего размера. Был, конечно, перекачивающий насос, предназначенный для перекачки топлива из подвала в бак на крыше, чтобы он всегда был полным. Предполагалось, конечно, что при установке насоса его электропитание должно поступать от генератора, а не от электросети. Таким образом, если сеть внезапно выйдет из строя, топливо в баке на крыше позволит запустить генератор, который затем будет поддерживать работу насоса, чтобы бак на крыше был заполнен. К сожалению, подрядчики-электрики, устанавливавшие насос, допустили ошибку и вместо этого оставили его подключенным к основной электросети переменного тока, поэтому топливо из большого резервуара в подвале так и не попало в резервуар на крыше, что привело к быстрому разряду генератора. топлива. Означает ли это, что вы всегда должны нанимать второго подрядчика для проверки каждого отдельного электрического соединения, выполненного вашим основным подрядчиком при настройке систем в вашем центре обработки данных?

Решение для гиков

Когда мы подошли к концу нашего обсуждения, мы решили, что правильным способом проверки готовности к стихийным бедствиям и плана восстановления для центра обработки данных будет взрыв городской электросети и наблюдение за тем, что произойдет в течение нескольких последующих дней. Будут ли генераторы нормально работать? Будут ли они продолжать работать, пока сеть не будет отремонтирована? Это, конечно, решение проблемы для гиков и, как правило, нереалистично, поскольку гики, такие как мы, ИТ-специалисты, склонны думать, что все во вселенной вращается вокруг технологий, с которыми мы работаем.

Хорошо, а что, если мы просто отключим подачу электроэнергии от местной подстанции к нашему дата-центру? Скажем, в течение 24 часов, чтобы убедиться, что генераторы работают нормально? Извините, но не обращайте на это внимание — в нашем городе действуют нормы загрязнения и шума, которые не позволяют предприятиям запускать большие генераторы дольше 30 минут, если только не происходит настоящая чрезвычайная ситуация или на карту поставлены жизни.

Хорошо, давайте отключим главные выключатели и дадим генератору поработать 30 минут и посмотрим, работает ли он так, как задумано. Мы могли бы делать это каждые шесть месяцев, чтобы убедиться, что мы готовы к катастрофе. Нет, подождите, разве я где-то не читал, что дизель-генераторы нужно запускать хотя бы на 30 минут каждые 30 дней как минимум? Итак, теперь у нас есть некоторая связь между готовностью к стихийным бедствиям и надлежащим регулярным обслуживанием. И у нас есть бюджет для подготовки нашего плана аварийного восстановления, но в нашем бюджете на техническое обслуживание нет статьи для этого, так что вернемся к чертежной доске.

Подождите минутку, может быть, одного выдергивания выключателя недостаточно, чтобы действительно проверить электрическую целостность. Мой друг-строитель, специализирующийся на системах отопления, вентиляции и кондиционирования воздуха для офисных башен, говорит, что вы всегда должны тянуть и повторно нажимать на выключатель по крайней мере три раза, чтобы правильно проверить, работает ли он. Хорошо, лучше запишите это где-нибудь в наш план аварийного восстановления. Означает ли это, что мы должны нанять одного или двух инженеров, чтобы проверить наш план, чтобы убедиться, что мы все предусмотрели? Хватит ли у нас бюджета на это?

В этот момент мы расстались и разошлись по своим гостиничным номерам. Той ночью я некоторое время не мог заснуть, так как меня постоянно мучило чувство, что план аварийного восстановления нашего собственного бизнеса где-то дает сбой.

Насколько хорошо вы спите по ночам?