Как создать эффективный план аварийного восстановления для вашего бизнеса

Опубликовано: 15 Марта, 2023
Как создать эффективный план аварийного восстановления для вашего бизнеса

Создать план аварийного восстановления для обеспечения непрерывности бизнеса — ну, это непросто. Здесь слишком много факторов, чтобы даже пытаться их суммировать. Начиная с перечисления всех рисков и заканчивая выбором места для размещения приложений и систем аварийного восстановления — каждое решение будет испытанием для вас.

Вероятно, именно из-за этого многим бизнес-организациям трудно начать или улучшить свой план аварийного восстановления. Вам не придется долго искать, прежде чем вы наткнетесь на тематические исследования организаций, чьи первые попытки аварийного восстановления были предприняты, когда разразился кризис.

Мы не хотим, чтобы ваша организация попала в список таких прискорбных тематических исследований. Ваша, должно быть, счастливая история организации, которая увидела, как пришла буря, с уверенностью наблюдала за ней, позволила ей пройти и беззаботно возобновила работу. Вот все, что вам нужно знать и делать, чтобы реализовать этот сценарий.

Учитывать

Вы можете восстановить только то, что, как вы знаете, разрушено. Консультанты по аварийному восстановлению клянутся практикой инвентаризации как аппаратного, так и программного обеспечения. Идеально, если компании создают самоопределяемые категории для классификации этих активов и организации их в порядке приоритета, чтобы наиболее важные из них были защищены в первую очередь.

Пока вы делаете это, имеет смысл пометить техническую поддержку и контактную информацию под рукой для каждого актива. Не рискуйте ситуацией, когда вы знаете, что что-то не так, но не знаете, что все это могло разрушить.

Определение уровней допуска

Конечно, разные виды бизнеса имеют разные уровни терпимости к простоям системы и потере данных. Если вы местная служба доставки тортов, вы можете позволить себе несколько часов простоя. Если вы являетесь службой такси, ваше приложение не может позволить себе быть недоступным более чем на несколько секунд.

Целевое время восстановления (максимальное время ожидания перед возобновлением доступа к затронутым системам) и целевое значение точки восстановления (максимальный объем потери данных, который вы можете себе позволить из-за сбоя, выраженный в единицах времени, начиная с момента сбоя). два столпа, на которых будет стоять ваш план аварийного восстановления. В идеале ответ на оба вопроса был бы — несколько миллисекунд. Но тогда затраты, жизнеспособность и достижимость будут определять ценности, на которые вы действительно согласитесь.

Эксперты советуют предприятиям распределять системы и приложения по трем или четырем категориям: от уровня 1 (приложения, которые необходимо восстановить немедленно) до уровня 4 (приложения, которые можно легко восстановить в течение нескольких дней). От этого зависит успех каждого плана аварийного восстановления.

Правило 3-2-1 для резервного копирования данных

Время безотказной работы системы — это одна цель, а предотвращение потери данных — другая. Для достижения последнего эксперты клянутся правилом 3-2-1. В нем говорится, что должно быть три копии ваших данных, как минимум на двух разных носителях, и одна копия должна находиться вне офиса. Логика достаточно ясна; план должен обеспечивать избыточность, географическое разделение и избегать известных рисков, связанных с конкретными средами. Если данные, хранящиеся на традиционном носителе (диске, диске и т. д.), изнашиваются, удаленное расположение (которое в основном представляет собой облачное хранилище для современных предприятий) обеспечит безопасность. Это также означает, что даже в такой серьезной ситуации, как городское стихийное бедствие, ваши удаленные данные (расположенные на сервере за тысячи километров) будут в безопасности.

Вникнуть в суть

После того, как вы определились с RTO и RPO для различных приложений, пришло время подробно записать план аварийного восстановления. Вместо того, чтобы вступать в бесцельные дискуссии о подготовке шаблона плана, мы рекомендуем вам сделать его максимально практичным, ясным и четким. Это потому, что у людей, которые будут ссылаться на нее, действительно не будет времени, чтобы налить себе эспрессо и откинуться на кресло-качалку, чтобы прочитать ее.

Вместо этого сосредоточьтесь на четких ответах на вопросы, которые у людей возникнут в данный момент; такие как:

  • Что именно может пойти не так для предприятия?
  • Как это повлияет на вашу сеть и каковы могут быть результаты?
  • Когда, как и что вы будете сообщать непосредственно затронутым заинтересованным сторонам?
  • Каковы различные этапы процесса восстановления?
  • Кто за что отвечает?

После этого убедитесь, что план легко доступен для людей, ответственных за ликвидацию последствий стихийных бедствий. Кроме того, разработайте механизм пересмотра плана каждые три или шесть месяцев в зависимости от деликатности вашего бизнеса. Более новые угрозы (например, программы-вымогатели) требуют изменений и дополнений в основном плане аварийного восстановления.

Наличие плана коммуникаций

Основным источником хаоса в бизнесе, когда ИТ-инфраструктура обрушивается на катастрофу, является отсутствие ясности в отношении того, кто с кем общается и на каком языке. Это требует от компаний добавления четкого и всеобъемлющего плана коммуникации в свой план аварийного восстановления. Ключевые моменты, которые необходимо охватить в плане коммуникации:

  • Какие лидеры берут на себя ответственность за сообщение новостей внутренним и внешним заинтересованным сторонам
  • Кто играет роль управления средствами массовой информации, если возникнет такая ситуация?
  • Как вы будете общаться с внутренними и внешними заинтересованными сторонами и средствами массовой информации, если электронная почта, обмен мгновенными сообщениями и телефон недоступны?

Проверь это

Наивно готовить план аварийного восстановления, а затем не протестировать его с разумной степенью детализации и практичности. Почти гарантировано, что вы столкнетесь с неожиданностями и поймете, что вы:

  • упустил из виду важные системы и не включил их в план.
  • не могут достичь RTO по ряду причин.
  • ваша технология резервного копирования не делает моментальные снимки сервера с той частотой, на которую вы рассчитывали.

Чем больше неожиданностей вы столкнетесь в этот момент, тем лучше станет ваш план аварийного восстановления (при условии, что вы извлекаете информацию из своего тестирования и переводите ее в улучшения).

Настоящая катастрофа: отсутствие плана аварийного восстановления

Аварийное восстановление является здоровенным. Это утомительно и в большинстве случаев дорого. Однако только после разработки надежного плана аварийного восстановления бизнес-лидеры могут позволить себе спать спокойно, будучи готовыми к борьбе с нестабильной ситуацией.