Один из важнейших аспектов аварийного восстановления ИТ, о котором все забывают
Одной из крупных тенденций в области ИТ за последние несколько лет стал акцент на аварийном восстановлении и непрерывности бизнес-планирования. Магазины всех размеров оценивают свои возможности аварийного восстановления ИТ в надежде, что в случае аварии они смогут сохранить все в сети.
Концепция аварийного восстановления, конечно, существовала всегда. Еще в 1992 году я помню, как помогал организации, в которой я работал, выполнить тест аварийного восстановления. Несмотря на то, что аварийное восстановление не является чем-то новым, есть несколько моментов, из-за которых планированию аварийного восстановления уделяется гораздо больше внимания, чем раньше. Некоторые из способствующих факторов включают в себя:
- Публичное облако может выступать в качестве резервного сайта, что устраняет затраты на создание удаленного центра обработки данных.
- Виртуализация сделала возможным переключение на другой сервер или в другой центр обработки данных с минимальными усилиями.
- Программное обеспечение для резервного копирования теперь поддерживает возможности мгновенного восстановления.
- Операционные системы, гипервизоры, программное обеспечение для резервного копирования и облачные технологии развились до такой степени, что возможности аварийного восстановления с финансовой точки зрения доступны практически любой организации, тогда как когда-то такие возможности были доступны только крупнейшим компаниям.
- По крайней мере, в некоторых случаях нормативные акты требуют наличия возможностей аварийного восстановления.
Несмотря на все планы аварийного восстановления ИТ, которые ведутся, есть одна очень важная вещь, которую упускает почти каждая организация. Многие ИТ-эксперты скажут вам, что наиболее упускаемым из виду аспектом аварийного восстановления является тестирование. Хотя я не оспариваю идею о том, что тестированием аварийного восстановления часто пренебрегают, есть еще один фактор, который, возможно, еще более важен, но о котором я никогда не слышал, чтобы кто-то упоминал. Это человеческий фактор.
Не поймите меня неправильно. Человеческий фактор действительно решается. Список ключевых сотрудников и их контактная информация должны быть частью каждого плана аварийного восстановления. Однако есть еще кое-что, чего не хватает. Вместо того, чтобы просто рассказать вам о том, что все забывают, позвольте мне нарисовать вам картину.
Давайте представим, что штаб-квартира воображаемой компании находится в Портленде, штат Орегон. Давайте также предположим, что все сотрудники ИТ-отдела этой компании умны, хорошо образованы во всех областях ИТ и трудолюбивы. Неудивительно, что они тщательно разработали и тщательно протестировали план аварийного восстановления, который позволит всем критически важным системам автоматически переключаться на другой регион в случае аварии.
Взрывной сценарий
А теперь давайте представим, что однажды на горе Сент-Хеленс произошло крупное, но несколько неожиданное извержение. Извержения недостаточно, чтобы разрушить Портленд, но оно все портит.
Просто чтобы сделать вещи интересными, давайте также представим, что вся сейсмическая активность вулкана вызывает взрыв горы Рейнир в течение нескольких дней после извержения горы Сент-Хеленс (маловероятно, что оба вулкана исчезнут, но это может произойти). Поскольку все так пристально следили за горой Сент-Хеленс, извержение вулкана Рейнир застало всех врасплох. Извержение Маунт-Рейнир в конечном итоге является пароксизмальным извержением с индексом вулканической взрывоопасности 5 (на одну ступень выше катастрофического извержения и примерно на одном уровне с извержением вулкана Сент-Хеленс 1980 года. Это извержение и вызванное им цунами опустошают Сиэтл и полностью разрушают районы) ближе к горе.Портленд не пострадал ни от пирокластических потоков, ни от лавы, но город парализован пеплопадом и накоплением.
Очевидно, я нарисовал здесь довольно мрачную картину, но давайте предположим, что все сотрудники компании выжили. Итак, давайте поговорим о последствиях этой ситуации. Несмотря на то, что ущерб в Портленде довольно минимален, выпадение пепла потенциально может привести к массовым перебоям в подаче электроэнергии, что заставит нашу воображаемую компанию инициировать свой план аварийного восстановления. После этого все рабочие нагрузки автоматически переключаются на другой регион и остаются в сети и не прерываются. Поскольку планы аварийного восстановления компании были тщательно протестированы, весь процесс аварийного переключения работает безупречно. Так все хорошо, да? Не совсем.
Успешного аварийного переключения недостаточно
Успешная отработка отказа и бесперебойная работа, по-видимому, являются конечной целью большинства планов аварийного восстановления ИТ. Однако каким бы идеальным ни был этот результат, он упускает из виду нечто очень важное — сотрудников. В этой воображаемой ситуации рабочие нагрузки компании продолжают выполнять именно то, что они должны делать. Между тем, жизнь сотрудников находится в смятении.
Несмотря на то, что все сотрудники пережили эту воображаемую катастрофу, жизнь для них не совсем радужная. В лучшем случае накопление пепла затрудняет транспортировку, как это было в 1980 году. Дыхание также стало опасным. Что еще более важно, Сиэтл был опустошен. Учитывая близость Портленда к Сиэтлу, у большинства сотрудников, вероятно, есть друзья или родственники, которые не пережили взрыв. Как будто этого было недостаточно, такой катастрофической ситуации также могло быть достаточно, чтобы вызвать серьезные экономические проблемы.
Учитывая, что сотрудники имеют дело со всеми этими вещами, как вы думаете, каковы шансы, что они будут продолжать выполнять свою работу, как будто ничего не произошло (даже если это означает работу из дома)? Скорее всего, найдется несколько сотрудников-трудоголиков, которые очень преданы своей работе и будут продолжать работать даже во время стихийного бедствия. Однако для всех остальных приоритетом, несомненно, будет спасение их семей от катастрофы.
Тенденция сотрудников заботиться о себе и своих семьях, прежде чем беспокоиться о потребностях компании, была предсказана еще Абрахамом Маслоу, который создал иерархию потребностей Маслоу. Иерархия потребностей Маслоу (см. таблицу выше) — это философия, которая, по сути, утверждает, что человек должен позаботиться о своих самых основных потребностях, прежде чем он сможет сосредоточиться на других вещах. Хотя легко увязнуть в деталях теории Маслоу, есть действительно простой способ добраться до сути того, что описывает Маслоу. Представьте на мгновение, что вы ныряете с аквалангом, и у вас закончился воздух, когда вы находитесь на глубине 100 футов. О чем вы будете думать в этот момент? Собираетесь ли вы думать о том, как завершить этот проект на работе, или вы будете слишком заняты размышлениями о том, откуда придет ваш следующий вдох? Это то, о чем говорит иерархия потребностей Маслоу, и я думаю, что можно с уверенностью сказать, что иерархия Маслоу определенно должна учитываться при формулировании плана аварийного восстановления.
Суть в том, что если случится крупная катастрофа, сотрудники почти наверняка будут сосредоточены исключительно на удовлетворении своих основных потребностей выживания. В такой ужасной ситуации мало кто из сотрудников, если вообще кто-либо, будет хотя бы раз задумываться об операциях по аварийному восстановлению ИТ в компании.
Аварийное восстановление ИТ начинается с ваших сотрудников
Если верно то, что сотрудники, вероятно, не будут заботиться об операциях аварийного восстановления ИТ после серьезной аварии, то организация должна подумать о том, как она может обеспечить наличие необходимых кадровых ресурсов во время кризиса. Большинство организаций, с которыми я работал, терпят неудачу, когда дело доходит до этой части процесса, потому что они приравнивают наличие списка контактов сотрудников к доступности кадровых ресурсов. Им никогда не приходит в голову, что сотрудники могут не отвечать на звонки, когда их вызывают, или, что еще хуже, могут приказать своему начальнику прыгнуть с места.
Лучший способ гарантировать, что кадровые ресурсы будут доступны во время кризиса, — это позаимствовать страницу из сборника пьес Маслоу и сформулировать план обеспечения заботы о сотрудниках во время кризиса. Удовлетворение основных потребностей сотрудников и их семей во время кризиса должно быть ключевой частью любого плана аварийного восстановления ИТ.