Большие данные: перспектива безопасности (часть 1)
Введение
В ИТ-индустрии временную шкалу можно измерить по появлению модных словечек (или модных фраз). Броские термины, из которых получаются хорошие звуковые фрагменты, часто не до конца понимают даже их самые большие сторонники и самые уважаемые «эксперты». Одним из самых модных словечек прошлого года были «большие данные», но что это на самом деле означает? И что это значит с точки зрения безопасности? В этой статье мы поговорим о тренде больших данных с точки зрения безопасности.
В первой части мы рассмотрим проблему защиты больших данных, а во второй части рассмотрим, можно ли и как использовать большие данные для повышения общей сетевой безопасности.
Самое простое определение «больших данных» звучит именно так: огромные объемы (подумайте о петабайтах, эксабайтах, зеттабайтах и больше). Зеттабайт равен более чем триллиону гигабайт (точнее, 1 099 511 627 776 ГБ). Это много данных по чьим-либо стандартам. Конечно, количество данных, составляющих «большие», со временем меняется. Когда я купил свой первый IBM PC с его массивным жестким диском емкостью 10 Мбайт, «маленькие» накопители емкостью 500 Гбайт, которые стоят на сегодняшних компьютерах по цене 299 долларов, рассматривались как хранилище огромного количества данных. Через двадцать лет накопители с несколькими domegemegrottebyte (1 000 000 000 000 000 000 000 000 000 000 000 байт) станут обычным явлением.
Но «большие данные» — это не только объем. Это также касается сложности — взаимосвязей, иерархий и связей между точками данных и наборами данных. И речь идет о скорости — скорости, с которой данные создаются и обрабатываются. Наконец, речь идет о разнообразии — структурированных, неструктурированных и полуструктурированных данных.
Это считается «большими данными», когда традиционные подходы к обработке реляционных баз данных больше не будут работать из-за объема данных или скорости, с которой данные собираются или должны быть обработаны, или из-за их неструктурированного/полуструктурированного характера.
Аналитика больших данных
Преимущество сбора таких огромных объемов данных заключается в потенциальной возможности извлекать из них информацию, которую предприятия могут использовать в процессе принятия решений. «Аналитика больших данных» — еще одно популярное в настоящее время модное слово, которое относится к методам «интеллектуального анализа данных» (еще одно модное слово) для извлечения соответствующей информации, которая может использоваться для выявления тенденций, прогнозного моделирования и прогнозирования.
Самая основная форма аналитики охватывает «бизнес-аналитику» (которую вы, возможно, помните как модное словечко несколько лет назад), которая больше используется для распознавания и идентификации того, что произошло в прошлом. Современная аналитика идет дальше, применяя анализ для прогнозирования того, что произойдет в будущем.
Недавно я написал статью для блога GFI под названием «TMI/NEK: слишком много информации, недостаточно знаний». Аналитика больших данных стремится превратить избыток информации, которая представляет собой большие данные, в знания, которые могут быть полезны для бизнеса.
При чем здесь безопасность?
Есть два разных аспекта, из которых мы можем исследовать взаимосвязь между большими данными и безопасностью:
- Задача защиты самих больших данных и
- Использование аналитики больших данных для выявления тенденций в области безопасности и составления прогнозов, связанных с безопасностью.
Мы рассмотрим каждый из них и то, что вам нужно знать о каждом из них при работе с большими данными.
Защита больших данных
Вы можете подумать, что защита больших данных почти ничем не отличается от защиты небольших объемов данных, но между ними есть важные отличия. Возвращаясь к фактору сложности, о котором мы упоминали выше, большие данные обычно поступают из множества разных источников. Поскольку разные точки данных, скорее всего, физически находятся в разных местах, вы должны знать, как настраиваются ограничения доступа. Вы должны отслеживать, где хранятся данные, кто имеет к ним доступ и как они могут получить к ним доступ (т. е. из внутренней сети, извне сети через мобильные устройства и т. д.).
Вам также необходимо оценить характер данных и обратить особое внимание на данные, требующие высокой безопасности, которые включают в себя как данные, принадлежащие вам (коммерческая тайна, интеллектуальная собственность, бизнес-планы и стратегии), так и данные, принадлежащие другим лицам (клиентские социальные сети). номера безопасности, номера кредитных карт и банковских счетов, медицинские записи, персональные данные сотрудников).
Вы, очевидно, сталкиваетесь со многими из тех же проблем, с которыми всегда сталкиваетесь при защите данных: внутренние и внешние угрозы. Но объем и сложность данных усложняют процессы безопасности. Добавьте к этому тот факт, что Apache Hadoop, архитектура с открытым исходным кодом, которая чаще всего используется для предоставления платформы для развертывания больших данных и распределенных приложений, которые используются для обработки больших данных, представляет собой среду программирования на основе Java, которая не была разработана с учетом требований безопасности. в качестве приоритета.
Это означает, что безопасность «добавляется» как второстепенная задача, а не внедряется глубоко в конструкцию систем. Хорошей новостью является то, что существуют решения безопасности, специально предназначенные для решения этой проблемы. Например, SHadoop (Secure Hadoop) накладывается поверх Hadoop в реализациях Zettaset для обеспечения аутентификации Kerberos, безопасности на основе ролей и ведения журнала аудита.
Эти распределенные кластеры компьютеров, управляемые Hadoop, создают новые проблемы безопасности, которые невозможно адекватно защитить с помощью «старых» ИТ-технологий, основанных на границах периметра (брандмауэры, IDS/IPS и другие «пограничные» решения). Это означает, что безопасность должна двигаться внутрь, с элементами управления, предназначенными для защиты самих данных, а не сети (аналогично размещению ваших ценностей в сейфе, так что даже если грабитель проникнет в ваш периметр, проникнув в ваш дом, сильный барьер для доступа к важным активам).
Мы также должны обратить внимание на инструменты аналитики. Проблема здесь в том, что существуют десятки различных инструментов, которые работают по-разному, многие из них являются бесплатными программами с открытым исходным кодом. Поскольку многие из них специализируются на обработке определенных типов данных, в конечном итоге вы можете использовать несколько инструментов одновременно. Поскольку они бесплатны, может не быть централизованной поддержки или точки ответственности за безопасность инструментов.
Поскольку большие данные связаны с использованием данных, хранящихся в разных отделах или доменах компании, ответственность за безопасность определенных наборов данных должна быть перенесена. Возникает необходимость применять общеорганизационный подход к безопасности, а не применять меры безопасности в контексте отдельных, изолированных «островков» данных.
Неструктурированные данные, которые составляют большую часть больших данных, должны храниться и сортироваться иначе, чем высокоструктурированные данные, с которыми привыкли иметь дело многие специалисты по ИТ-безопасности. Традиционное управление базами данных (SQL) обеспечивает множество средств контроля безопасности, таких как многофакторная проверка подлинности, шифрование данных, брандмауэры, защищающие (содержащиеся) базы данных и т. д. Системы «NoSQL», используемые в инфраструктурах больших данных, имеют меньшее количество и менее сложные элементы управления безопасностью с аутентификацией Kerberos и списками управления доступом.
Поскольку экосистема больших данных содержит огромное количество информации, она является особенно привлекательной мишенью для злоумышленников. Это делает еще более важным обеспечить его безопасность. Но, как всегда, безопасность должна быть сбалансирована с доступностью и производительностью, потому что, как правило, первое находится на противоположном конце континуума от двух последних. Больше безопасности обычно означает меньшую доступность и снижение производительности. Это может иметь большее значение в среде больших данных, поскольку во многих случаях полезность данных зависит от обработки и доступа в реальном времени.
В некотором смысле безопасность больших данных находится на том же уровне, на котором сетевая безопасность в целом была 15 лет назад, и компании вскоре окажутся в том же положении, когда «это просто выросло». Организации воодушевлены потенциальными возможностями использования больших данных, и это может привести к тому, что вопросы безопасности будут отодвинуты на второй план.
Решения проблемы защиты больших данных требуют нестандартного мышления, в котором данные традиционно были ограничены. Технологические решения — это только часть ответа. Вам также нужны надежные политики, определяющие, как обрабатываются данные и где они хранятся; в противном случае вы обнаружите, что данные распределены больше, чем вам хотелось бы, в том числе по внешним системам, таким как мобильные устройства, ноутбуки и домашние компьютеры, которые не находятся под контролем группы ИТ-безопасности организации. Первым шагом является попытка обнаружения данных, чтобы найти все данные, чтобы их можно было классифицировать в соответствии с потребностями конфиденциальности и безопасности.
Шаги по защите больших данных включают в себя все следующее:
- превентивные меры (настройка правильного контроля доступа и шифрование данных)
- мониторинг как самих данных, так и доступа к данным на постоянной основе для обнаружения изменений в потребностях в безопасности и выявления угроз и потенциальных угроз
- удаление данных, которые больше не нужны организации, и их удаление, чтобы они больше не представляли риска
Что касается последнего, то после того, как укусила ошибка больших данных, организации склонны становиться «накопителями данных», собирая все больше и больше данных только ради увеличения объема и сохранения их после срока их полезного использования и времени, когда они следует «выбросить».
Резюме
Большие данные обладают большим потенциалом для бизнеса, поскольку они могут быть мощным инструментом, который при правильном использовании предоставит информацию, которую можно использовать в интересах организации. Однако это также может создать большие проблемы, если вопросы безопасности, связанные с его сбором, хранением и использованием, не будут решены заранее.
Во второй части этой серии мы рассмотрим аналитику безопасности больших данных или способы применения методов больших данных к данным безопасности для повышения общей безопасности сети.