IT-отказ British Airways: уроки, которые нельзя игнорировать
Последние выходные мая стали для British Airways полным пиар- и логистическим кошмаром. Повреждение оборудования, вызванное скачком напряжения в одном из центров обработки данных компании, привело к массовому отключению ИТ.
Урок №1: Всегда имейте запасной план
Предприятия должны преодолевать риски, чтобы добиться успеха, и эти риски, как правило, варьируются от одного сектора к другому. Таким образом, первое, что должна сделать компания, — это осознать все потенциальные риски и сценарии, от которых ей необходимо защитить себя. Именно здесь ошибаются многие организации. Почему? Потому что: Они остаются неактивными.
Вы когда-нибудь слышали поговорку ? Что ж, в этой ситуации нет ничего более подходящего для бизнеса. Правда в том, что то, что произошло с British Airways, должно послужить тревожным звонком для других компаний, побуждая их принимать меры на случай подобных разрушительных происшествий.
Вот почему план обеспечения непрерывности бизнеса так важен для успеха компании. Если ваша организация еще не создала его, сейчас самое подходящее время. Возможно, вы понятия не имеете, с чего начать, или у вас просто нет времени или опыта для планирования будущих ситуаций — в этом случае обязательно обратитесь за профессиональной помощью, и это определенно не должно быть от Сола Сильвера из фильм «Ананасовый экспресс». Он не такой острый и надежный!
Рассмотрите все различные риски и сценарии, с которыми сталкивается ваш бизнес. Однако вместо того, чтобы вдаваться в подробности, подумайте об их влиянии на компанию. Хитрость заключается в том, чтобы ваши планы охватывали общие вопросы и касались мельчайших деталей только тогда, когда это необходимо.
Урок № 2: усовершенствуйте свой план обеспечения непрерывности бизнеса
У вас уже есть план на случай непредвиденных обстоятельств? Потрясающий! Но то, что часто работает в теории, плохо воплощается в жизнь. Именно это и произошло с British Airways. По словам представителя компании, у них уже были системы резервного копирования, но они не подключались к сети, когда это требовалось.
Избегайте чего-то подобного любой ценой, и единственный способ сделать это — время от времени проверять свои планы резервного копирования. Это подтвердит, будут ли системы, процедуры и процессы работать во время кризисов, как ожидалось. Существуют различные типы тестов, но некоторые из них должны включать перенос обработки в системы резервного копирования. Также важно использовать такие инструменты, как настольные упражнения.
Урок № 3. Запланируйте частые тесты аварийного восстановления
Все, что нужно, это одна ошибка. Ваша организация может быть неприступной, но даже одна точка отказа может привести к краху всей системы. Страшно то, что эта может быть чем угодно — это может быть часть инфраструктуры или системы, или один из поставщиков или людей. Вот почему так важно иметь запасной план на случай отказа этих ключевых ресурсов.
То же самое произошло и в случае с British Airways. Где-то в их системе была только одна точка отказа, из-за которой резервные системы давали сбои. И эта единственная ошибка стоила им дорого.
Вы должны понимать, что никто не ожидает, что у вас будет физический дубликат компьютера в другом центре обработки данных. Однако ваши системы должны быть в состоянии быстро и эффективно реагировать в случае потери ключевого компонента инфраструктуры или системы. Вы должны стремиться иметь такой отчетливый план на случай непредвиденных обстоятельств, который даже не узнает об инциденте, поскольку резервное копирование сработало и заткнуло брешь, как только обнаружило проблему.
Большинство пассажиров, застрявших из-за ляпов British Airways, жаловались на одну общую проблему: никто не мог сказать им, что именно пошло не так.
План обеспечения непрерывности бизнеса каждой компании должен включать план реагирования на инциденты. Это гарантирует, что участники, по крайней мере, поймут, что пошло не так, и что необходимо сделать, чтобы бизнес мог быстро возобновить нормальную работу. Это может означать формирование специальной группы реагирования на инциденты, способной контролировать и управлять процессом возвращения компании к нормальной работе.
Вы не можете решить проблему, если не знаете, в чем она заключается.
Одним из самых основных аспектов плана реагирования на инциденты является общение. Это гарантирует, что все заинтересованные стороны, от инвесторов до клиентов, получают своевременные обновления и получают уверенность в том, что организация пытается восстановить контроль над инцидентом в меру своих возможностей.
Урок № 4. Надлежащее внимание к отказоустойчивости обойдется вам дешевле, чем альтернативы
Менеджмент часто обвиняют в плохой устойчивости организации. Генеральный директор British Airways Алекс Круз, например, столкнулся с резкой критикой клиентов за то, как он справился с ситуацией. Что еще хуже, даже члены правления сомневались в способностях его и его команды.
Никто не остается в организации навсегда; естественно, что люди уходят. Однако крайне важно, чтобы люди не покидали компанию в критический период. Вот почему организации должны иметь надежный план преемственности. Эти документы, которые касаются старших сотрудников компании или государственного департамента, а также тех, кто имеет решающее значение для бизнес-операций, повышают устойчивость компании.
Урок № 5: Активная репликация данных
Воздействие тем больше, чем дольше длится сбой ИТ. Несколько лет назад 15-минутная потеря ИТ-услуг не была такой уж большой проблемой; но сейчас, в мире больших данных, каждая минута на счету. Слишком долго, и это может привести к свержению даже таких могущественных организаций, как British Airways. По этой причине компаниям следует рассмотреть возможность активной репликации данных для синхронизации основного и дополнительного центров обработки данных. После включения он должен сделать сбой ИТ необнаружимым.
Если вы видели «Социальную сеть», вы можете видеть, как Марк Цукерберг волновался, когда его деловой партнер Эдуардо Саверин пригрозил сократить финансирование, чтобы они не могли оплачивать свои счета за ИТ или серверы.
Урок №6: Внедрение искусственного интеллекта
ИИ и машинное обучение становятся обычным явлением на предприятиях. Решения на основе ИИ разрабатываются и все чаще используются организациями для лучшего понимания технологий.
Но какую пользу это принесет ИТ-компаниям? Что ж, в ИТ-среде автоматизированные инструменты на основе ИИ способны просматривать каждую соответствующую область и выделять проблемы, требующие немедленного внимания. Например, интеллектуальный инструмент мониторинга, внедренный в ИТ-инфраструктуру British Airways, помечал бы проблемы до того, как они обострились бы. Пользователи также поймут правильный порядок действий. Таким образом, искусственный интеллект помогает достигать результатов без особых усилий и обеспечивает безопасность бизнеса, а не тратит тысячи человеко-часов.
Неразбериха с British Airways раскрыла множество потенциальных ИТ-угроз, с которыми компании по всему миру могут столкнуться из-за некоторой халатности или недосмотра с их стороны. Однако еще не поздно — вы все еще можете использовать то, что вы узнали из инцидента, для устранения любых проблем с ИТ, которые могут возникнуть в вашей собственной организации. Это позволит вам продолжать работать гладко и эффективно без каких-либо сбоев.