Насколько надежны ваши общедоступные облачные сервисы?

Опубликовано: 4 Марта, 2023
Насколько надежны ваши общедоступные облачные сервисы?

Еще в марте 2010 года Брайан Сноу, бывший технический директор Агентства национальной безопасности, заявил, что не доверяет публичному облаку. Прошло 7,5 лет, и почти каждое предприятие в мире использует общедоступную облачную службу или начнет использовать ее очень скоро. Теперь никто не может отрицать веские основания, на которых предприятия оправдывают свои миллионы долларов инвестиций в общедоступные облачные сервисы. Публичные облачные сервисы изменили то, как работает мир бизнеса, начиная от связи и заканчивая управлением данными. Так есть ли место для вопроса о надежности общедоступного облака? Мы изучаем ответы в этом руководстве.

Что вызывает этот вопрос?

Что ж, для начала давайте на мгновение задумаемся о событиях 28 февраля, когда служба Amazon Simple Storage Service (S3) была отключена, что привело к отключению сотен бизнес-приложений. Вот краткое изложение того, что произошло, и что Amazon сделал, чтобы спасти ситуацию.

Администратор неправильно набрал команду во время обслуживания некоторых серверов S3. Ошибка перевела в автономный режим больше, чем нужное количество серверов. В результате среда S3 в восточной зоне США слишком приблизилась к полной мощности, что привело к проблемам с доступностью тысяч веб-сервисов, зависящих от S3.

С тех пор Amazon изменила свои инструменты обслуживания, чтобы не отключать слишком много серверов одновременно. Затем система S3 была преобразована в более мелкие ячейки, чтобы свести к минимуму перекрестное распространение удара. Кроме того, Amazon провел аудит других систем, чтобы убедиться, что они не страдают такими же недостатками.

AWS был запущен в 2006 году. Учитывая, что Amazon потребовалось почти 11 лет, чтобы понять, что инструмент поддержки обслуживания может вывести из строя несколько серверов одновременно, страшно подумать, сколько других таких неопознанных точек отказа может существовать в общедоступном облаке. Тогда вопрос не совсем неуместен.

Не пора ли переосмыслить общедоступное облако?

Теперь, вместо того, чтобы лечить инцидент на симптоматическом уровне, более важно глубоко погрузиться и определить реальные причины, вызвавшие такое событие, и его влияние. Когда сила общедоступных облачных сервисов действительно начала оказывать влияние, стало понятно, что вычисления будут чем-то вроде того, как работают коммунальные услуги, такие как электричество.

Может возникнуть сложность с точки зрения количества поставщиков, но модель доставки сделает потребление очень простым. Все инновации, сбои и преобразования меняют качество, стоимость и пользовательский опыт, но, по сути, предоставление коммунальных услуг остается таким же простым, как и прежде. Публичное облако представлялось как эквивалентная система, из которой предприятия могли бы потреблять столько ресурсов хранения и вычислительных ресурсов, сколько необходимо.

Однако в недавнем прошлом это перестало иметь место из-за ожесточенных сражений между крупными поставщиками общедоступных облачных решений, включая Amazon. Давление на рынке заставляет их вносить постоянные изменения в ядро своих систем облачных вычислений с намерением найти возможности для улучшения, чтобы сохранить и привлечь больше клиентов.

Поставщики публичных облаков должны понимать, что все их усилия по настройке, экспериментированию и улучшению должны осуществляться без малейшей возможности сбоев в том, что есть. Публичные облачные сервисы — это то, на что рассчитывает глобальный бизнес-двигатель. Когда мы добавляем в смесь силу изменений, мы никогда не можем рассчитывать на 100-процентную доступность.

Пробелы в понимании предприятиями общедоступных облачных сервисов

То, как поставщик продает свои общедоступные облачные услуги, зависит от ожидаемых вопросов, которые будут задавать потребители. В этом смысле корпоративные потребители должны были иметь возможность добиться большей прозрачности в том, как поставщики продвигают, демонстрируют и объясняют свои решения. Тем не менее, все еще существует облако (каламбур) вокруг корпоративного понимания с точки зрения общедоступных облачных решений. Чтобы было понятнее, вопросы вокруг этих строк нужно озвучивать чаще:

Насколько поставщик готов делиться с клиентами информацией о рабочем состоянии облачной среды? Сейчас для этого есть инструменты, например CloudWatch для Amazon. Однако эти инструменты на самом деле не отражают основное рабочее состояние облачной среды.

Какова степень вмешательства человека в рутинное обслуживание и обслуживание общедоступной облачной системы? Какие меры принимаются, чтобы гарантировать, что человеческая ошибка не приведет к сбою системы?

Какие метрики используются для измерения критических параметров, таких как производительность, пропускная способность, емкость, использование и конкуренция? Какие параметры являются наиболее важными для поставщиков общедоступных облачных служб, требующими максимальных усилий по улучшению? Что еще более важно, что считается нормальным и здоровым поведением для этих показателей, и что является состоянием тревоги?

Сколько единых точек отказа (SPOF) существует в среде? Как вендор намерен смягчить их в ближайшие годы? Подсистема индексирования оказалась SPOF в случае с Amazon S3; можно только догадываться, сколько потребителей знали об этом факте. И если бы даже Amazon этого не знал, это было бы еще более пугающим предложением! Почти так же страшно, как смотреть первые пять (3 + 2 = 5) фильмов о Человеке-пауке — насколько фальшивой может быть группа фильмов?

Каков же тогда ответ?

Предприятия просто не могут позволить себе скептически относиться к общедоступным облачным сервисам, учитывая их преимущества в плане стоимости, масштабируемости и удобства. Как они могут убедиться, что их не постигнет участь, с которой столкнулись сотни предприятий, когда S3 вышел из строя? Вот несколько рекомендаций:

  • Обеспечьте отказоустойчивость своих размещенных в облаке приложений, развернув их в нескольких зонах доступности в одном общедоступном облаке или даже в разных общедоступных облаках.
  • Поддерживайте сайт аварийного восстановления в частном облаке, гибридном облаке или на объекте совместного размещения.
  • Перед развертыванием приложений в облаке убедитесь, что они устойчивы к внешним воздействиям, защищены от SPOF внутри приложений и могут масштабироваться.

Признавайте риски

Публичное облако никуда не денется. К сожалению, было достаточно случаев, чтобы указать на то, что экосистема может быть не такой стабильной, как хотелось бы предприятиям. Однако, признавая потенциальные риски и беря на себя ответственность за выполнение всего необходимого для обеспечения непрерывности бизнеса, предприятия могут избежать горьких последствий таких событий, как сбой AWS S3.