Управление центром обработки данных: как ИТ-специалисты могут избежать катастрофы Delta

Опубликовано: 18 Марта, 2023

Крысы в центре обработки данных?

Нет, возможно, это не было настоящей причиной недавнего катастрофического сбоя в работе центра обработки данных Delta Airlines. Первоначально авиакомпания сообщила только, что отключение электроэнергии в их центре обработки данных привело к отмене сотен рейсов Delta, что привело к тысячам недовольных клиентов. Несколько дней спустя авиакомпания сообщила Associated Press, что часть оборудования вышла из строя и вызвала «небольшой пожар», который каким-то снежным комом перерос в крупный сбой в их центре обработки данных в Атланте, в результате чего были отключены все их системы управления полетами и бронирования.

Ряд различных новостных и технических СМИ размышляли о том, как мог произойти такой критический инцидент. Но мы на самом деле не знаем подробностей того, что произошло, и я предполагаю, что Delta будет ждать месяцы, если не годы, прежде чем подробно объяснить, что пошло не так и, что более важно, почему произошло событие.

Это не снижает ценности рассмотрения того, что могло произойти в Delta, и, чтобы помочь мне все обдумать, я спросил своего друга и коллегу Флориана Клаффенбаха, что он думает о том, что может пойти не так в средах центров обработки данных. Фло — технический архитектор из Берлина, Германия, специализирующийся на частных и общедоступных облачных технологиях Microsoft. Он также является обладателем награды Microsoft MVP в области управления облачными средами и центрами обработки данных и ведет популярный сайт под названием Flo's Datacenter Report, где регулярно ведет блоги о Windows Server, Hyper-V и оборудовании центров обработки данных.

Странные события в дата-центре

Я начал с того, что спросил Фло, видел ли он когда-нибудь в своей работе консультанта центра обработки данных что-то, что могло бы вызвать что-то похожее на то, что испытала Дельта. Он ответил, что за последние 10 лет, посещая центры обработки данных многих различных коммерческих и государственных институтов, он видел «много странных вещей, но всегда самые тревожные вещи, которые я видел, были связаны с серверными системами, которые, по сути, являются источником жизненной силы организации». Я спросил его, какие проблемы с серверами в центрах обработки данных он видел, и он ответил, приведя длинный список вещей, которые его шокировали и даже ужаснули.

«Я видел системы, работающие на старом, больше не поддерживаемом оборудовании или программном обеспечении с истекшим жизненным циклом, — говорит он. «Часто никто, работающий в центре обработки данных, не знал, почему это оборудование или программное обеспечение все еще там или даже как оно работает. Я видел критически важные системы, которые не имеют резервного копирования или аварийного переключения, когда речь идет о защите от сбоев».

Есть также случай управления неправильным управлением. «Я видел системы, управляемые поставщиком услуг или группой администраторов, которые понятия не имеют, как обращаться с запущенными на них приложениями, и даже не обращают внимания на SLA [соглашения об уровне обслуживания]», — говорит он. «И я часто видел, как руководство недооценивает важность службы и ставит доход превыше всего, игнорируя при этом возможные убытки, которые могут быть понесены из-за сбоя в работе этого приложения».

И, как известно каждому ИТ-специалисту, деньги часто являются большой частью проблемы. «Я также видел, как организации пытались реконструировать программы с использованием материалов с открытым исходным кодом, чтобы сэкономить несколько копеек, и результат часто был нестабильным, как если бы его разработал ребенок, а не взрослый», — говорит Фло.

Когда плохое управление и отсутствие поддержки становятся проблемой, ИТ-специалистам часто приходится сокращать углы. «Я также встречал ИТ-персонал, у которого нет времени на тестирование своих систем и приложений, поэтому им приходится выполнять все развертывания и обновления на «горячих» системах», — говорит Фло. «На самом деле, похоже, что девиз большинства ИТ-отделов до сих пор состоит в том, чтобы никогда не трогать работающую систему. Хуже всего то, что ИТ-персонал обычно знает обо всех этих проблемах и что они запускают все на основе высокого риска. Но, кажется, единственное, что они могут сделать, это просто молиться, чтобы служба не провалилась под их наблюдением».

Это напоминает мне классический комикс Дилберта об инженерах, прячущих голову в песок в надежде, что ничего серьезного не пойдет не так, как надо. Один из моих приятелей-инженеров сказал мне, что это слишком верно для его профессии.

Основные причины, возможные решения

Почему ИТ-отделы позволяют своим центрам обработки данных попадать в такие беспорядки? Фло считает, что причин несколько. «Недостаток знаний и поддержки со стороны руководства», — говорит он. «Управленческие решения основаны на непонимании деловой стороны ИТ. Администраторы с такими экстремальными нагрузками в своей повседневной работе, что у них нет времени на проекты обслуживания и обновления. И, конечно же, сокращение расходов, сокращение расходов и еще раз сокращение расходов».

Как организация может выбраться из этой неразберихи? «Самое главное, просто будьте сильными, собирайте факты и бросайте вызов руководству», — говорит Фло. «ИТ-отделы не должны начинать с жалоб и просьб руководства исправить ситуацию. Вместо этого им следует пойти наоборот и думать об ИТ больше с точки зрения бизнеса, чем с чисто технической точки зрения.

Он также говорит, что организациям следует потратить время на переосмысление своих ИТ и услуг и разработать бюджет для изменений, которые они хотят внедрить. «Затем представьте проблемы и свои решения руководству, обязательно приложив бизнес-план», — говорит он. «Дайте им возможность обсудить ваше предложение, но постарайтесь указать им правильное направление и убедитесь, что вы позволяете руководству принять решение о полной приверженности вашей инициативе. И, если необходимо, просто заплатите какому-нибудь внешнему эксперту, который придет и поможет вам».

Хотя эти шаги, которые предлагает Фло, могут помочь решить проблемы с точки зрения управления, необходимо также учитывать техническую сторону вещей. Советы и рекомендации Flo по «защите центра обработки данных от дельта» включают следующее:

Придерживайтесь стандартов в вашей среде.
Выбирайте партнеров, которые разрабатывают и работают с самыми современными технологиями.
Используйте облачные среды, такие как Microsoft Azure, когда у вас нет собственных ресурсов или если вам нужны ресурсы только на ограниченный период времени, например, для целей тестирования.
Привлекайте известных экспертов, таких как Microsoft MVP, у которых есть твердая личная этика, стоящая за их продуктами и решениями».

«Помните, что в вашей инфраструктуре нет священных коров, — говорит Фло. «Если нужно заменить систему или приложение, нужно заменить — сделайте это. И подумайте дважды — на самом деле подумайте на три года вперед, прежде чем что-то делать.

Суть для ИТ-специалистов центров обработки данных? Делай то, что должен, и не позволяй Дельте попасть впросак.

Компьютерные сети

Управление центром обработки данных: как ИТ-специалисты могут избежать катастрофы Delta

Странные события в дата-центре

Основные причины, возможные решения

РЕКОМЕНДУЕМЫЕ СТАТЬИ