Стартапы по управлению инцидентами, которые помогут вам потушить пожары

Опубликовано: 14 Марта, 2023
Стартапы по управлению инцидентами, которые помогут вам потушить пожары

Они говорят, что в современных распределенных средах, включающих контейнеры, микросервисы, облачные компоненты и многое другое, вопрос не в том, что что-то сломается, а в том, когда. Это означает, что это больше не способность избегать инцидентов, а скорее способность быстро и эффективно восстанавливаться — это определение хорошей оперативной способности. Сегодня, с DevOps, проектированием надежности сайта (SRE), компакт-диском, сдвигом влево и общей «безупречной» культурой, вы больше не можете указывать пальцем, и операционная ответственность разделяется всеми. Кроме того, сейчас мы живем в мире, который всегда включен, и ожидания пользователей находятся на рекордно высоком уровне в отношении приемлемого уровня обслуживания. В отличие от того времени, когда управление инцидентами сводилось к отладке кода, теперь речь идет о поддержании работоспособности ваших служб, а также о способности реагировать и восстанавливаться после любых непредвиденных обстоятельств. Это и другие факторы, такие как пандемия, рецессия и тот факт, что это год выборов, привели к беспрецедентному количеству инцидентов в 2020 году.

Вот взгляд на некоторые стартапы, которые ставят управление инцидентами на первое место.

СтекРокс

Количество стартапов, появляющихся в этом секторе, обнадеживает. Мы собираемся более подробно рассмотреть, что они привносят в управление инцидентами, начиная с калифорнийского стартапа StackRox. Компания StackRox, основанная в 2014 году, ранее в этом месяце объявила о привлечении 26,5 млн долларов в рамках раунда финансирования серии B-1 и увеличении выручки на 240% за первые шесть месяцев этого года. StackRox — это нативная для Kubernetes платформа безопасности контейнеров, которая обеспечивает управление инцидентами и обнаружение уязвимостей, профилирование рисков, соблюдение нормативных требований, прозрачность и многое другое.

В мае StackRox добавила в свою платформу несколько новых функций управления инцидентами, и все они, разумеется, проистекают из собственной архитектуры Kubernetes. Новые функции включают в себя представления временной шкалы, которые предоставляют пользователям хронологическое представление событий во время выполнения, федеральные контрольные проверки, которые помогают обеспечить соответствие, заметки аналитика для добавления аннотаций к метаданным и расширенные политики для более гибких политик, использующих логические операторы. Интересно то, что все эти новые функции были разработаны в сотрудничестве с существующими клиентами, как корпоративными, так и федеральными.

StackRox также имеет автоматизированную систему реагирования на инциденты, которая позволяет вам предварительно настроить ряд ответов от простого предупреждения до фактического закрытия затронутого модуля или контейнера. Причина инцидента определяется с помощью средств обнаружения аномалий и судебно-медицинской экспертизы, которые позволяют Stackrox легко добраться до сути каждого инцидента. Помимо встроенной интеграции с PagerDuty, Splunk, SumoLogic и Google Command Security Center, StackRox также использует Istio для визуализации сетей и применения сетевых политик.

смягчает

Изображение 4192
Викимедиа

Еще одна организация, которая не верит в трату времени на попытки предотвратить атаку, заявляя, что следующая атака «неизбежна», — это израильский стартап Mitiga. В июле Mitiga вышла из того, что люди называют скрытым режимом, чтобы собрать 7 миллионов долларов начального финансирования для своих решений и услуг по реагированию на инциденты. В отличие от организаций, которые тратят много времени и сил на защиту, Mitiga специализируется на управлении средами после взлома, помогает пользователям справляться с инцидентами и ускоряет возвращение к обычному бизнесу.

Mitiga — это не только управляемые услуги или технология реагирования на инциденты, адаптированная к требованиям каждого клиента. Несмотря на то, что в их технический стек действительно заложено много знаний и опыта, оперативный центр экстренной помощи или «красная» команда всегда готовы справиться с активными инцидентами, такими как взломы и атаки вредоносных программ. В эту группу входят специалисты по кибербезопасности, которые проводят оценку, тестирование на проникновение, криминалистические расследования и даже готовят команды по связям с общественностью для устранения последствий взлома.

Теперь, когда мы сказали, что Mitiga не верит в предотвращение или защиту, это не означает, что они сидят без дела, ожидая атаки. Реакция Mitiga на инциденты называется готовностью к наступлению. Как и Chaos Monkey от Netflix, Митига считает, что современные среды требуют агрессивного подхода и, таким образом, привносят в мир управления инцидентами сочетание корпоративных услуг и безопасности военного уровня. Военное прошлое здесь исходит от генерального директора Ариэля Парнеса, который был не только полковником израильского элитного киберподразделения 8200, но и командующим Киберспециальными силами.

Гремлин

Изображение 4193
Фликр / Инти

Следующим в нашем списке является еще один стартап, берущий пример с программы Netflix Chaos Monkey и использующий довольно агрессивную тактику для защиты от взломов и взломов. Gremlin, базирующаяся в Сан-Хосе, Калифорния, объявила в сентябре 2018 года, что привлекла 18 миллионов долларов в рамках раунда финансирования серии B. Хаос-инжиниринг — это, по сути, процесс атаки на вашу собственную систему и «преднамеренного разрушения вещей», чтобы снизить чувствительность и акклиматизировать команды к сбоям, а также к ситуациям с высоким уровнем стресса.

Инструмент Chaos Monkey, который случайным образом завершает экземпляры, наряду с Simian Army, был взят Netflix на разработку Chaos. Лорн Клигерман, директор по продукту в Gremlin, сравнил инженерию Хаоса с вакциной, которая «вводит контролируемый вред для создания иммунитета» и, конечно же, устойчивости. Хотя вряд ли у кого-то есть такие ресурсы, как у Netflix, в феврале 2019 года Gremlin объявила о бесплатной Chaos-Monkey-as-a-Service для всех организаций, создающих устойчивые веб-приложения. В апреле 2019 года Gremlin объявила об интеграции со Spinnaker CD, за которой последовала после объявления о совместимости с Windows и Kubernetes в том же году.

Хотя концепция преднамеренного разрушения вещей может показаться простой, здесь основное внимание уделяется вызыванию «контролируемого» отказа для повышения устойчивости. Gremlin достигает этого, предоставляя пользователям контролируемую среду, в которой они могут медленно накапливать ошибки, как большой карточный домик, пока что-нибудь не сломается. Что не менее важно и что Gremlin также предоставляет пользователям, так это возможность постепенно устранять эти ошибки, когда что-то действительно ломается, чтобы можно было сделать наблюдения, оценки и соответствующие корректировки. Gremlin также ежегодно организует конференцию Chaos Conference в октябре, к которой можно присоединиться бесплатно.

безупречный

Последним в нашем списке у нас есть стартап из Пало-Альто, штат Калифорния, с именем, которое вы не можете не любить. Blameless Inc., основанная в 2017 году, предоставляет пользователям первую комплексную платформу SRE, которая использует искусственный интеллект для автоматического обнаружения и разрешения инцидентов. Как и Mitiga, Blameless также был разработан в скрытом режиме для избранной группы первых пользователей. Тем не менее, он появился с платформой SRE, которая была готова к отправке, а также с финансированием в размере 20 миллионов долларов.

Хотя в центре внимания команд DevOps часто находятся быстрые и частые выпуски, как мы упоминали в начале этого поста, в настоящее время продуктом является не конкретный выпуск или обновление, а работающая служба. Вот почему команды SRE сосредотачиваются на повышении операционной устойчивости и, в отличие от соглашений об уровне обслуживания (SLA), у них есть цели уровня обслуживания (SLO) с последствиями. Это означает, что выпуск обновления или новой функции может быть остановлен, если SLO не соблюдается. Подобно тому, как технология Chaos использовалась только Amazon и Netflix до Gremlin, SRE использовалась только очень крупными организациями до запуска Blameless.

Стартапы по управлению инцидентами: разные, но с общей нитью

Мы рассмотрели четыре стартапа и их уникальные подходы к управлению инцидентами, начиная от нативных Kube и заканчивая ИИ с поддержкой Chaos и даже военного уровня. Хотя все они могут немного отличаться друг от друга, общая черта здесь заключается в том, что современные эфемерные, распределенные, гибридные среды с практически безграничными возможностями атаки требуют новых и нестандартных подходов к управлению инцидентами. К счастью, это то, что мы начинаем видеть в стартапах в этом секторе, и, учитывая рекордно высокий уровень инцидентов, мы не удивимся, если до конца года еще несколько выйдут из скрытого режима.