Крупнейшие сбои на сайте в 2019 году и их причины

Опубликовано: 2 Марта, 2023

Если вы не живете без социальных сетей, вы определенно были свидетелями моментов, когда Интернет, казалось, ломался за последние восемь месяцев. На крупных веб-сайтах происходили сбои, из-за которых отключались основные службы, и люди не могли загружать изображения, получать доступ к своей электронной почте и календарям или даже использовать прямой обмен сообщениями в течение нескольких часов подряд. Такие гиганты, как Facebook, Google и Apple, стали жертвами сбоев, которые заставили большую часть мира пошатнуться, когда они поняли, что Интернет не является самым безопасным или даже самым постоянным местом для хранения их данных, как они когда-то думали. Июнь и июль были особенно плохими месяцами, так как несколько, казалось бы, не связанных между собой ошибок вызвали перебои в работе веб-сайтов Google, Facebook, Apple и даже Twitter в течение нескольких дней, что привело к некоторым важным вопросам о стабильности и устойчивости систем, на которых работает Интернет. основано.

13 марта: Фейсбук

Возможно, самый массовый сбой в работе Facebook произошел в марте, когда миллионы пользователей сообщили о невозможности доступа к большинству семейства приложений Facebook. Для миллиардов людей во всем мире, которые полагаются на приложения социальных сетей сетевого гиганта для удовлетворения большинства своих потребностей в общении, сбой стал шоком. Некоторые вообще не могли получить доступ к приложениям, а другим были заблокированы определенные функции, такие как истории и общие медиа. Пользователи отправились в Twitter, чтобы выразить свое разочарование, и Facebook был вынужден прибегнуть к обмену обновлениями в Twitter, чтобы успокоить сбитых с толку пользователей.

Виновник: изменение конфигурации сервера

Были предположения, что Facebook стал целью распределенной атаки типа «отказ в обслуживании» (DDoS), а некоторые утверждали, что сбой вызвала ошибка на сервере. В конце концов, Facebook сообщил, что сбой был вызван изменением конфигурации сервера, однако не было предоставлено никаких подробных объяснений того, в чем именно заключалась проблема и как они ее решили. Последующее отключение в апреле было быстро устранено, опять же, без объяснения причин. Учитывая недавние юридические проблемы компании, эти отключения только еще больше подорвали доверие общественности к технологическому гиганту.

2 июня: облачная платформа Google

В воскресенье, 2 июня, в Google Cloud произошел масштабный сбой, лишивший миллионы людей доступа к Gmail, YouTube и Диску и даже причинивший ущерб сторонним организациям, таким как Vimeo, Snap и Discord. Пользователи в районах, затронутых сбоем, обнаружили, что не могут использовать YouTube или Google Cloud Storage, а также другие сервисы, для работы которых требуется большая пропускная способность сети. На исправление ошибки, затронувшей серверы Google, потребовалось три часа, прежде чем сервисы снова были подключены к сети.

Виновник: еще одно изменение конфигурации

Google был немного более откровенным, чем Facebook, в объяснении того, что пошло не так, и объяснил отказ сервисов обычным изменением конфигурации, которое было случайно применено к серверам, на которые оно не должно было влиять. Это привело к тому, что серверы потеряли более половины пропускной способности сети, что привело к перегрузке сети. В конце концов, небольшие потоки трафика, чувствительные к задержкам, получили приоритет над большими, менее чувствительными к задержкам потоками трафика, что привело к тому, что последние были отброшены, что привело к сбою. Из-за перегрузки сети было сложно немедленно отменить изменение конфигурации, поэтому сотрудникам Google потребовалось три часа, чтобы восстановить услуги для своих пользователей. Это был второй раз в этом году, когда на YouTube произошел сбой, так как ранее в январе он отключился на полтора часа.

24 июня: Веризон

Глобальное отключение крупных веб-сайтов, таких как Google, Amazon и Reddit, в конце июня высветило некоторые глубоко укоренившиеся проблемы в инфраструктуре Интернета. Поскольку интернет-пользователи во всем мире были потрясены отключением многих наиболее широко используемых веб-сайтов, Cloudflare удалось определить Verizon как источник проблемы.

Виновник: утечка маршрутизации BGP

В этом случае виноваты не ошибочные изменения конфигурации сервера, а система, которая существует уже более 20 лет и известна как протокол пограничного шлюза (BGP). BGP отвечает за маршрутизацию трафика через интернет-провайдеров, прежде чем направлять их к службам. Утечки маршрутов могут привести к тому, что огромные объемы трафика будут направляться через сети, которые не оборудованы для обработки таких объемов трафика, что приведет к перебоям в предоставлении услуг. Cloudflare обвинила Verizon в том, что она не установила ограничения, которые предотвратили бы утечку маршрутов, которая привела к отключению большей части Интернета. Cloudflare заявила, что со стороны Verizon это была явная «небрежность» из-за не реализованной IRR-фильтрации (IRR — это реестр интернет-маршрутизации), которая существует уже более 20 лет и могла бы успешно остановить сеанс, вызвавший сбой. Компании все чаще внедряют инфраструктуру RPKI (инфраструктура открытых ключей ресурсов), которая предотвращает утечку маршрутов и перехват маршрутов. Cloudflare обратилась к Verizon за отказ включить BGP Origin Validation, действие, которое позволило бы внедрить RPKI.

2 июля: Облачная вспышка

По иронии судьбы, всего через неделю после того, как Cloudflare бросила тень на Verizon, произошел сбой, который привел к отключению нескольких крупных веб-сайтов. Такие сайты, как DownDetector, которые часто сообщают о сбоях в работе, были отключены из-за этой проблемы, оставив многих в неведении. Веб-сайты, использующие Cloudflare, в том числе Patreon, SoundCloud, Udemy, Pinterest, Dropbox, Pinterest, Discord, Medium, Shopify, Zendesk, BuzzFeed, Nest и Sling, пострадали от сбоев в работе сервисов.

Виновник: неправильное развертывание программного обеспечения

В подробном сообщении в блоге Cloudflare объяснил, что «плохое развертывание программного обеспечения» вызвало всплеск загрузки ЦП на его машинах по всему миру, нарушив до 82 процентов трафика в самый худший момент. Сбой был связан с «одним неправильно настроенным правилом», которое было развернуто в брандмауэре веб-приложений Cloudflare. Откат всех правил, которые были развернуты, обратил вспять скачок загрузки ЦП и восстановил сервисы Cloudflare. В то время как ошибка Cloudflare привлекла большое внимание, у Google также произошел сбой, когда оптоволоконный кабель на восточном побережье США был физически поврежден. Google удалось решить проблему, перенаправив трафик, пока кабель не был отремонтирован.

3–4 июля: Facebook, Twitter и Apple.

3 июля с разницей в 20 минут и Facebook, и Twitter независимо друг от друга написали в Твиттере, что в их услугах произошел сбой. Пользователи Twitter столкнулись с проблемами прямого обмена сообщениями и уведомлениями, многие жаловались на получение уведомлений о полученных сообщениях, когда их не было. Facebook и его семейство приложений остановились, поскольку мультимедиа и обмен файлами были временно отключены, в результате чего пользователи не могли загружать или загружать изображения, видео и другие типы файлов.

Виновник: плановое техническое обслуживание

Facebook объяснил, что это вызвало проблему при проведении плановой проверки обслуживания, которая повлияла на возможность пользователей обмениваться фотографиями и видео. Twitter не дал никаких объяснений по поводу проблемы с функцией прямого обмена сообщениями, хотя в конечном итоге службы были восстановлены. Похоже, у крупных компаний не было передышки, поскольку уже на следующий день iCloud от Apple также пострадал из-за потери доступности многих его функций на трехчасовой период, что, как полагают, было вызвано проблемой BGP, аналогичной к тому, что попало в Verizon.

11 июля: Твиттер

Веб-сайт для получения обновлений о сбоях в работе веб-сайта, Twitter, не хотел упускать все самое интересное, и пользователи не могли получить доступ к веб-сайту в течение часа 11 июля. Мобильные и веб-пользователи не могли загружать твиты в течение продолжительность отключения.

Виновник: изменение внутренней системы

Предлагая довольно расплывчатое объяснение, Twitter объяснил сбой внутренним системным изменением, которое они в конечном итоге исправили. Пользователи вскоре вернулись к твитам об отключении, и с миром все было в порядке.

Несмотря на опасения по поводу распределенных атак типа «отказ в обслуживании», удивительно, что ни одно из крупных отключений, произошедших в первой половине года, не было связано с нарушениями безопасности, а было связано с системными недостатками и плохой инфраструктурой. Хотя технология, созданная несколько десятилетий назад, кажется, хорошо масштабируется, чтобы продолжать формировать основу постоянно меняющегося Интернета, эти инциденты служат напоминанием о том, что Интернет построен на хрупкой инфраструктуре. Будем надеяться, что крупные компании увидят в этих сбоях тревожный сигнал, чтобы начать защищать свои сети и защищать пользователей от более серьезных угроз их безопасности в будущем.

Облачные вычисления