Эффективное аварийное восстановление — что для этого требуется?

Опубликовано: 13 Марта, 2023
Эффективное аварийное восстановление — что для этого требуется?

Блокировка, последовавшая за пандемией COVID-19, подчеркнула важность инициатив по обеспечению непрерывности бизнеса и аварийного восстановления (BCDR). Если надлежащая стратегия BCDR отсутствует, компаниям требуется слишком много времени, чтобы вернуться к действию. Хуже того, некоторые вообще пытаются выздороветь.

BCDR — очень широкая тема, и я хочу немного углубиться в этот пост, поэтому я остановлюсь на одном из основных компонентов BCDR; а именно аварийное восстановление (DR). Я расскажу об основных моментах эффективных инициатив по аварийному восстановлению, от элементов аварийного восстановления до типов аварийного восстановления. Я также дам несколько советов, которые вы можете использовать при создании плана аварийного восстановления.

В основе каждой инициативы по аварийному восстановлению лежит план аварийного восстановления, поэтому давайте сначала определим, что это такое.

Что такое план аварийного восстановления?

План аварийного восстановления (DR) — это задокументированный план, в котором подробно описывается, что компания должна сделать, чтобы восстановиться после аварии и возобновить работу. Он включает в себя, среди прочего:

  • Назначение членов группы аварийного восстановления
  • Выполнение анализа рисков
  • Выявление критически важных для бизнеса активов
  • План резервного копирования
  • Тестирование и оптимизация плана аварийного восстановления

Мы рассмотрим детали этих предметов позже. Во-первых, давайте уберем общий источник путаницы.

Основное различие между непрерывностью бизнеса и аварийным восстановлением

Люди часто путаются в разнице между непрерывностью бизнеса и аварийным восстановлением. Хотя они тесно переплетены, они не одно и то же. Теперь вопрос: что такое непрерывность бизнеса и что такое аварийное восстановление ?

Непрерывность бизнеса связана с общей способностью компании продолжать вести бизнес после и даже во время стихийного бедствия или незначительного сбоя. Основная цель обеспечения непрерывности бизнеса — постоянно поддерживать бизнес как можно ближе к обычному режиму работы. Это означает, что это может включать в себя усилия по предотвращению любого простоя бизнес-операций.

Аварийное восстановление, с другой стороны, является частью (хотя и основной) непрерывности бизнеса. Он больше сосредоточен на возможности простоя бизнеса и на том, как быстро восстановиться после него.

Итак, каковы преимущества внедрения аварийного восстановления?

4 основных преимущества эффективного аварийного восстановления

Любой может просто выполнять регулярное резервное копирование данных и называть это аварийным восстановлением. К сожалению, резервные копии — это лишь один из компонентов эффективной программы аварийного восстановления. В следующем разделе я рассмотрю несколько других элементов. А пока давайте обсудим 4 основных преимущества стремления к эффективному аварийному восстановлению.

1. Сокращение времени простоя

Простои, а точнее незапланированные, относятся к ситуации, когда некоторые или все ваши бизнес-процессы недоступны из-за непредвиденных событий. Всякий раз, когда это происходит, вы теряете производительность, доход и — в тяжелых случаях — неудовлетворенность клиентов. Как только вы сможете снизить частоту и продолжительность простоев, вы откроете другие преимущества.

2. Ограничьте возможные потери

Сокращение времени простоя, которое, как мы уже упоминали, является ответвлением эффективного аварийного восстановления, может ограничить потенциальные потери. Тем не менее, вам не нужно терять недельный доход и деловые возможности. Вы можете просто понести убытки за день или всего за несколько часов. Это огромная разница с финансовой точки зрения. Таким образом, вы сэкономите себе кучу денег!

3. Избегайте репутационного ущерба

Чем дольше длится сбой, тем больше он повлияет на ваши бизнес-процессы. Это также повлияет на продукты/услуги клиентов в зависимости от этих процессов. Любое продолжительное отключение может заставить клиентов искать другие варианты. Хуже того, если станет известно, что вы не можете быстро восстановиться, это также может оттолкнуть потенциальных клиентов. Таким образом, если вы сможете сократить простои за счет эффективного аварийного восстановления, вы сможете избежать репутационного ущерба.

4. Предотвращение судебных исков

Многие компании, которые несут убытки из-за ваших перебоев в работе, не записывают эти убытки в свои бухгалтерские книги. Вместо этого они предпримут юридические действия. Вот почему, если вы сможете ограничить или предотвратить длительные простои, вы избежите грязных и дорогостоящих судебных баталий.

Теперь, когда вы можете лучше ответить на вопрос « Что такое аварийное восстановление ?», пришло время познакомиться с ключевыми элементами аварийного восстановления.

5 ключевых элементов аварийного восстановления

Инициативы по аварийному восстановлению включают в себя несколько элементов, но я считаю их, расположенными в произвольном порядке, 5 основными:

1. Группа аварийного восстановления

Ваша группа аварийного восстановления (DRT) отвечает за составление, тестирование и обновление плана аварийного восстановления. Команда также выполнит его, если возникнет необходимость. Насколько это возможно, назначьте членов, представляющих различные отделы, в вашу группу аварийного восстановления. Например, вы можете поручить своему финансовому директору возглавить группу и назначить представителей из вашего ИТ-, юридического, бухгалтерского и коммуникационного отделов.

Это необходимо для того, чтобы команда могла учесть все возможные риски, связанные с вашей компанией. Это также подтверждает, что команда может разработать всеобъемлющий план, который принесет пользу всем. Убедитесь, что у каждого члена есть четко определенные роли, и вовлеките их в анализ рисков (см. следующий подраздел) до разработки плана аварийного восстановления.

2. Оценка риска

Каждая компания уникальна с точки зрения рисков, которым она подвергается, и влияния этих рисков на ее активы и деятельность. Оценка рисков и соответствующий анализ влияния на бизнес, который проводится после оценки, помогут вам определить и то, и другое. Это также поможет вам расставить приоритеты при разработке плана и уложиться в бюджет. Например, вы не должны отдавать приоритет средствам защиты от наводнений, если вы находитесь в районе, где за последние 100 лет не было серьезных наводнений.

Вовлеките всех участников вашего плана аварийного восстановления в мероприятия по оценке рисков и сделайте это постоянной практикой. Это позволит вам определить текущие и возникающие риски во всех секторах вашей компании. Это также гарантирует актуальность вашего плана послеаварийного восстановления.

Изображение 4045

3. Инвентаризация критически важных для бизнеса активов

Одним из важных побочных продуктов оценки рисков и анализа влияния на бизнес является определение критически важных для бизнеса активов. Вы можете определить, какие приложения, части ИТ-инфраструктуры, данные и т. д. необходимо восстановить как можно скорее.

Проведите инвентаризацию критически важных для бизнеса активов и сделайте их главным приоритетом в плане аварийного восстановления. При необходимости определите целевое время восстановления (RTO) и целевую точку восстановления (RPO) для каждого актива. Подробности см. в разделе часто задаваемых вопросов.

4. Резервный план

Резервные копии являются обязательным условием номер один на этапе восстановления каждой инициативы аварийного восстановления. Вы не можете вылечиться, если вам не от чего восстанавливаться. Обычно резервные копии применяются к данным. Тем не менее, вы также можете создавать резервные копии виртуальных машин и виртуальных рабочих столов, если, например, вы используете виртуализацию в своей ИТ-инфраструктуре. Чтобы сделать резервные копии максимально эффективными и действенными, вы должны составить план резервного копирования.

План резервного копирования обычно включает положения для:

  • Что вам нужно для резервного копирования (например, вы должны отдавать приоритет своим критически важным бизнес-данным и виртуальным машинам),
  • Где вы должны создавать их резервные копии (например, на ленту, удаленное резервное копирование, облачные резервные копии)
  • Какие RTO и RPO связаны с этими резервными копиями

5. Тестирование и оптимизация аварийного восстановления

Вы не сможете определить эффективность своего плана аварийного восстановления, если не протестируете его. Тестирование может помочь вам выявить недостатки в вашем плане и в его реализации. Например, вы можете рассчитывать на восстановление из удаленной резервной копии. Тем не менее, после тестирования вы понимаете, что некоторые базы данных не копируются в эту удаленную систему резервного копирования.

Тестирование также может помочь вам определить положения вашего плана, которые больше не применяются и нуждаются в обновлении. Риски развиваются, поэтому ваш план аварийного восстановления также должен измениться соответствующим образом.

Теперь, когда вы знаете наиболее важные элементы аварийного восстановления, давайте рассмотрим продукты и услуги, которые помогут вам внедрить аварийное восстановление.

6 типов решений для аварийного восстановления

В этом разделе я расскажу о 6 типах решений для аварийного восстановления, которые вы найдете на рынке.

Обратите внимание, что это не полные решения аварийного восстановления, которые единолично удовлетворяют все ваши потребности в аварийном восстановлении. Скорее, это точечные решения, которые решают определенные проблемы или потребности в аварийном восстановлении.

1. Резервные решения

Как вы могли догадаться, это решения, позволяющие выполнять резервное копирование ваших данных и/или виртуализированных приложений и рабочих столов. В целом резервные копии делятся на 3 типа:

  1. Полные резервные копии. Создавайте копии исходных данных и храните их на отдельном устройстве хранения.
  2. Инкрементальные резервные копии — копируйте только те части, которые изменились с момента последнего резервного копирования.
  3. Дифференциальные резервные копии — создает копии частей, которые изменились с момента последнего полного резервного копирования.

В идеальном мире вы хотели бы постоянно выполнять полное резервное копирование. К сожалению, мы живем не в идеальном мире. Из-за большого объема данных для резервного копирования полные резервные копии потребляют большую часть пропускной способности сети. Если вам необходимо выполнять резервное копирование в рабочее время, выберите инкрементное или дифференциальное резервное копирование.

2. Холодная площадка

Если вы можете себе это позволить, лучше иметь выделенную площадку аварийного восстановления для размещения вашей альтернативной ИТ-инфраструктуры. Это на случай, если авария выведет из строя ваш основной сайт. Этот сайт аварийного восстановления должен находиться вне офиса, т. е. в отдельном географическом месте. Самый простой сайт аварийного восстановления называется холодным сайтом. Он содержит электричество и физическое пространство для размещения вашей резервной ИТ-инфраструктуры. Тем не менее, у него нет самой ИТ-инфраструктуры.

Вам по-прежнему необходимо настроить ИТ-оборудование, серверы, операционные системы, приложения, данные и т. д. Настройка ИТ-среды требует много времени, поэтому не следует использовать холодную площадку для критически важных активов.

Изображение 4046

3. Популярный сайт

В отличие от холодного сайта, на горячем сайте есть все необходимое оборудование для поддержки ваших бизнес-операций. Ну, по крайней мере, он включает в себя необходимое оборудование для ИТ. Ваши сотрудники могут просто зайти на ваш «горячий объект» и сразу же будут готовы продолжить работу в обычном режиме.

Конечно, горячий сайт намного дороже холодного. Если у вас нет действительно большого бюджета, вы должны использовать горячую площадку только для критически важных активов.

4. Аварийное восстановление как услуга (DRaaS)

Аварийное восстановление как услуга (DRaaS) — это сторонняя облачная служба аварийного восстановления. Это позволяет вам реплицировать определенные части вашей ИТ-инфраструктуры (данные, виртуальные машины, приложения, рабочие столы и т. д.) в облачной инфраструктуре поставщика DRaaS.

Одна вещь, которую вы должны помнить о DRaaS, заключается в том, что если центр обработки данных поставщика DRaaS расположен далеко от того места, где вы работаете, вы столкнетесь с задержкой. Это означает, что ваши приложения будут медленно реагировать. Выбор поставщика DRaaS, который находится в том же месте, что и ваш основной сайт, также не годится. Катастрофа, которая остановит ваши операции, повлияет на нее. Если вы решите использовать решение DRaaS, обязательно проверьте задержку.

5. Резервное копирование как услуга

Резервное копирование как услуга (BaaS) — это также облачная служба с почти теми же функциями, что и облачное аварийное восстановление или DRaaS. Некоторые предложения BaaS и DRaaS даже имеют очень похожие функции, такие как защита важных для бизнеса данных и минимизация риска потери данных.

Как правило, поставщики BaaS придерживаются менее строгих соглашений об уровне обслуживания (SLA) по сравнению с поставщиками DRaaS. Таким образом, вы обычно выбираете BaaS, если ваши требования к непрерывности бизнеса не очень высоки. Например, вы можете использовать BaaS для некритичных рабочих нагрузок.

6. Виртуализация

Виртуализация может сыграть важную роль в улучшении возможностей аварийного восстановления. Например, если вы виртуализируете свои приложения, рабочие столы и данные и доставляете их через VDI, вы можете просто создать резервную копию всей среды VDI. Когда произойдет авария, ваши пользователи смогут подключаться к этой резервной среде VDI со своих устройств.

Здесь вы получите 2 основных преимущества:

  1. Виртуализированные среды намного дешевле в развертывании, резервном копировании и обслуживании, чем их физические аналоги. Вы имеете дело только с программным обеспечением и файлами, а не с копиями вашего физического оборудования.
  2. Резервные копии виртуальных приложений и рабочих столов лучше, чем просто резервные копии данных. Если вы выполняете резервное копирование только данных, вам все равно потребуется установить приложения и операционные системы, чтобы вернуться к работе. Виртуальные приложения и рабочие столы, доставляемые через VDI, не требуют установки.

Один минус? Виртуализация — это совершенно другой зверь. Для этого требуются люди с соответствующим набором навыков. Если у вас нет штатных сотрудников, способных управлять вашей средой виртуализации, этот вариант может вам не подойти.

Этого списка решений должно быть достаточно, чтобы вы начали. Говоря о начале работы, позвольте мне теперь дать вам обзор шагов, необходимых для разработки и поддержки плана аварийного восстановления.

9 советов по созданию и поддержке плана аварийного восстановления

Ваш план аварийного восстановления — это сердце и душа вашей программы послеаварийного восстановления. Он содержит план и документированные рекомендации, которым должны следовать все сотрудники вашей компании. В последующих разделах я дам советы о том, как создать и поддерживать план аварийного восстановления.

1. Определите угрозы

Для начала вам следует определить угрозы, которые могут повлиять на ваш бизнес. Включите все виды угроз, например стихийные бедствия (землетрясения, цунами, ураганы, наводнения, лесные пожары и т. д.) или киберугрозы (DDoS, программы-вымогатели, утечка данных и т. д.). Получив список, оцените вероятность возникновения каждой угрозы и ее соответствующее влияние на бизнес по шкале от 1 до 5.

Затем вы должны нанести их значения в матрицу риска, подобную той, что показана ниже. Соответствующее значение каждой угрозы на диаграмме является ее рейтингом риска. Это один из способов ранжирования угроз. Чем выше рейтинг риска угрозы, тем выше должен быть ее приоритет, поскольку вы учитываете угрозы при формулировании плана аварийного восстановления.

Изображение 4047

2. Опишите свой протокол реагирования на чрезвычайные ситуации

Сотрудники вашей компании, особенно ваша группа реагирования на чрезвычайные ситуации (ERT), должны знать конкретные триггеры для активации вашего плана аварийного восстановления. Что еще более важно, они должны знать, что делать, когда эти триггеры нарушены. Возможные триггеры могут включать полную потерю связи или электричества, затопление внутри вашего здания и т. д. Сообщите всем сотрудникам контактные телефоны вашей аварийной службы. Таким образом, они будут знать, кому звонить, если первыми заметят нештатную ситуацию.

Как только эти триггеры нарушены, ваша ERT должна уведомить других сотрудников вашей компании, связаться со службами экстренной помощи и определить, какие части вашего плана аварийного восстановления необходимо реализовать. Если ваша ERT отделена от вашей команды DR, ваша ERT должна связаться с вашей командой DR. Затем они могут приступить к действиям по аварийному восстановлению. Вы должны указать все это в своем плане аварийного восстановления.

3. Определите членов вашей группы восстановления

Это отличается от команды DR, о которой мы говорили ранее. Ваши группы восстановления будут нести ответственность за выполнение операций восстановления в различных областях вашей ИТ-инфраструктуры. Это требует различных технических навыков. Например, вам нужна команда для восстановления сетевых операций, еще одна для восстановления сервера, еще одна для восстановления приложений и так далее.

Вы должны включить этих лиц и их контактные телефоны в свой план аварийного восстановления. Однако помните, что в вашей компании время от времени будут происходить кадровые перестановки. Вот почему, когда вы обновляете свой план послеаварийного восстановления, убедитесь, что вы также включили обновления в членство в группе восстановления.

4. Определите членов вашей команды по связям со СМИ

Ваша команда по связям со СМИ будет отвечать за разработку рекомендаций по созданию соответствующих сообщений. Вы будете использовать эти сообщения для публичного раскрытия информации во время или после стихийного бедствия. Если у вас уже есть отдел коммуникаций, вы должны выбрать членов оттуда. Убедитесь, что только члены этой группы имеют право делать заявления в электронных (телевидение, Интернет, радио) и печатных СМИ. Опять же, включите список этих лиц и их контактную информацию в свой план аварийного восстановления.

5. Включите информацию, связанную со страхованием

Ключевой частью готовности к стихийным бедствиям является обеспечение достаточного страхового покрытия потенциальных затрат на восстановление после стихийного бедствия. Ваша компания, вероятно, инвестировала в различные полисы страхования ответственности. Этими политиками могут быть, среди прочего, ошибки и упущения (E&O), директора и должностные лица (D&O) и общая ответственность.

Включите соответствующую информацию об этих политиках в свой план аварийного восстановления. У вас есть раздел, в котором вы перечисляете названия полисов и соответствующие им типы покрытия, периоды покрытия, сумму покрытия и т. д. Укажите контактное лицо по любым вопросам, связанным со страхованием.

6. Включите финансовые и юридические вопросы

Ваш план аварийного восстановления должен учитывать финансовые и юридические вопросы, которые могут возникнуть в результате стихийного бедствия. В зависимости от степени бедствия вы, вероятно, столкнетесь с потерей дохода, потерей наличных денег или кражей ценных предметов/оборудования. Вы также можете столкнуться с потерей финансовых документов, нехваткой денежных средств, судебными исками или претензиями и т. д.

Ваша группа аварийного восстановления должна быть в состоянии предоставить первоначальную оценку финансовых последствий, а также возможные юридические обязательства. Он также должен иметь возможность удовлетворять первоначальные потребности, относящиеся к этим двум наборам вопросов. Вот почему вы должны включать в свой DRT людей из финансового и юридического отделов.

7. Создание и распространение документации

Вы должны подготовить электронную и бумажную копии плана аварийного восстановления. Что еще более важно, вы должны распространять эти копии среди заинтересованных сторон. Это могут быть члены вашей группы реагирования на чрезвычайные ситуации, группы аварийного восстановления и старшего руководства.

Вы также должны проинструктировать их всех хранить копии этих документов на месте и у них дома. Независимо от того, сколько копий вы создаете, вы также должны хранить мастер-копию в определенном месте.

8. Проверьте свой план аварийного восстановления

При выполнении тестов плана аварийного восстановления проверьте, совпадают ли результаты с вашими RTO и RPO. Ваши бизнес-процессы и различные элементы этих процессов должны иметь возможность восстанавливаться в пределах предписанных RTO.

Что касается RPO, вы можете проверить соответствующие журналы, чтобы убедиться, что данные резервируются в соответствии с предписанными RPO. Посмотрите, например, передаются ли данные в назначенную систему резервного копирования или сайт в рамках RPO.

9. Обновите свой план аварийного восстановления

Считайте свой план послеаварийного восстановления живым документом. Это означает, что вы должны обновлять его время от времени. Устаревший документ может сбить с толку или, что еще хуже, привести к дорогостоящим ошибкам, влияющим на бизнес.

Вы должны предоставить копии членам вашей ERT, DRT и высшему руководству. Вот почему вы должны убедиться, что у этих людей всегда есть последняя версия.

Заключительные слова

В заключение, эффективное аварийное восстановление (DR) требует хорошей команды аварийного восстановления, хорошо продуманного плана, правильного выбора решений и многого другого. Теперь вы знаете, как отличить аварийное восстановление от обеспечения непрерывности бизнеса. У вас также есть четкое представление о 5 ключевых элементах аварийного восстановления, некоторых типах решений для аварийного восстановления и советах по созданию плана послеаварийного восстановления.

Я надеюсь, что вы получили достаточно информации, чтобы начать работу по аварийному восстановлению. Таким образом, вы можете исключить риск длительных или постоянных простоев после аварии. Если у вас есть дополнительные вопросы, ознакомьтесь с разделами часто задаваемых вопросов и ресурсов ниже.

Часто задаваемые вопросы

Что такое РТО?

Целевое время восстановления, RTO, — это максимальный период, в течение которого критически важный актив может быть недоступен из-за сбоя или нарушения работы. Например, такими активами могут быть приложения, серверы, сетевые устройства передачи данных и т. д. В плане аварийного восстановления вы должны стремиться снова сделать этот актив доступным в рамках установленного RPO.

Что такое РПО?

Целевая точка восстановления, RPO, обычно применяется к данным, в частности, к резервным копиям этих данных. Это период, в течение которого вы должны сделать резервную копию части данных. Например, если запись обновляется раз в неделю, RPO в 12 часов может быть приемлемым. Тем не менее, если запись обновляется каждые 30 минут, 12-часовой RPO будет недостаточно. 30-минутный RPO или меньше был бы лучше. В своем плане аварийного восстановления старайтесь выполнять резервное копирование так часто или с большей частотой, чем целевая точка восстановления критически важных данных.

Что такое страхование ошибок и упущений?

Страхование от ошибок и упущений (E&O) — это тип страхования ответственности, который защищает от требований о ненадлежащей работе или небрежных действиях. Допустим, клиент несет финансовые потери в результате стихийного бедствия, затронувшего ваш бизнес, и решает подать в суд. Страхование E&O может помочь вам покрыть судебные издержки и расходы на урегулирование.

Что такое страхование директоров и должностных лиц?

Так же, как E&O, страхование директоров и должностных лиц (D&O) также является типом страхования ответственности, защищающим от обвинений в халатности и некачественной работе. Тем не менее, он больше предназначен для директоров компаний, членов правления и старших менеджеров. Если клиент понесет финансовые потери из-за стихийного бедствия, которое повлияло на ваш бизнес, и решит подать в суд, D&O может помочь вам оплатить судебные издержки и требования о компенсации.

Что такое отдел связи?

Не следует путать этот термин с коммуникационными технологиями. Под отделом коммуникаций в контексте данной статьи понимается отдел, отвечающий за связи со СМИ и общественностью, коммуникации с клиентами и маркетинг, внутренние коммуникации и кризисные коммуникации. Помимо других «коммуникационных» ролей, этот отдел занимается подготовкой соответствующих сообщений, а также передачей этого сообщения через различные средства массовой информации.