Интеллектуальный анализ данных в науке и технике
Интеллектуальный анализ данных — это автоматический процесс выявления неявных закономерностей, корреляций, аномалий и статистической информации в больших объемах данных, хранящихся в репозиториях. Эту информацию можно интерпретировать с помощью гипотезы или теории и использовать для составления прогнозов. Это междисциплинарная область, объединяющая идеи из ряда математических и вычислительных дисциплин, включая статистику, машинное обучение и поиск в базе данных, методы оптимизации и визуализации и многое другое. Интеллектуальный анализ данных может помочь обнаружить взаимосвязи и информацию, связанную с тенденциями, которые не могут быть получены с помощью базовых методов запросов и отчетов. Термин интеллектуальный анализ данных часто используется как синоним KDD, или обнаружение данных знаний, что на самом деле относится к более общему процессу, компонентом которого является интеллектуальный анализ.
Большая часть науки сейчас становится интенсивной с данными. Преобразующую способность, которую наука о данных предоставила науке, называют «Четвертой парадигмой».
Объем доступных данных растет экспоненциально; а также его объем, скорость и достоверность. Такое быстрое распространение данных сегодня сделало их слишком большими по размеру и размерности, чтобы их можно было напрямую анализировать людьми, что делает интеллектуальный анализ данных незаменимым инструментом для научно-исследовательских проектов в самых разных областях: от астрономии и биоинформатики до финансов и социальных наук. Интеллектуальный анализ данных можно использовать для получения соответствующих выводов и прогнозов на основе колоссального объема непроницаемых научных данных, которые собираются и хранятся каждый божий день.
Применение интеллектуального анализа данных в науке и технике:
- Сокращение данных. Научные инструменты, такие как спутники и микроскопы, могут легко собирать миллионы точек данных и генерировать терабайты данных на высоких скоростях. Методический автоматизированный подход может упростить наблюдения без ущерба для качества информации. Методы интеллектуального анализа данных могут служить эффективным интерфейсом между учеными и массивными наборами данных.
- Исследование: Интеллектуальный анализ веб-данных упрощает процесс извлечения полезной и запрашиваемой пользователями информации из противоречивых и неструктурированных данных в Интернете. Интеллектуальный анализ текстовых данных включает использование таких инструментов, как обработка естественного языка (NLP), для получения структурированной информации именно из текста. Эти приложения позволяют исследователям быстрее и точнее находить существующие научные данные в литературных базах данных.
- Распознавание образов: интеллектуальные алгоритмы могут обнаруживать закономерности в наборах данных, которые люди не могут из-за высокой размерности. Это также может помочь обнаружить аномалии.
- Дистанционное зондирование: методы интеллектуального анализа данных применимы к изображениям дистанционного зондирования с воздуха для автоматической классификации земного покрова, а для ночного освещения дистанционное зондирование используется для исследования социально-экономических областей.
- Сбор мнений: Подобласть обработки естественного языка, поиска информации и анализа текста, анализ мнений — это процесс извлечения человеческих мыслей и восприятий из неструктурированных текстов, которые можно использовать для анализа настроений пользователей социальных сетей.
Область применения методов интеллектуального анализа данных :
- Физика высоких энергий: эксперименты, связанные со столкновениями, моделируемыми в ускорителях и детекторах Большого адронного коллайдера, записывают петабайты данных, которые необходимо сохранить, откалибровать и реконструировать, прежде чем их можно будет проанализировать. Worldwide LHC Computing Grid работает с объемом, используя алгоритмы сокращения данных. Специальное высокопроизводительное программное обеспечение под названием ROOT представляет собой инструмент интеллектуального анализа данных с открытым исходным кодом, который облегчает научный анализ и визуализацию больших объемов данных.
- Астрономия: полная и эффективная классификация космологических объектов — это процесс, в котором используются алгоритмы интеллектуального анализа данных, используемые для разделения звезд и галактик, морфологии галактик и других типов классификации. Для оценки красных смещений по фотометрическим данным для галактик и квазаров используется шаблонный подход или метод обучения эмпирическому множеству. Помимо этих приложений, интеллектуальный анализ данных также использовался для анализа космического микроволнового фона, прогнозирования солнечных вспышек и выполнения астрономических симуляций.
- Биоинформатика: Биоинформатика — это наука на стыке биологии и информационных технологий. Данные, полученные в ходе исследований в области геномики и протеомики, можно использовать для поиска мотивов в последовательностях, прогнозирования структур белков, геномной аннотации, анализа экспрессии генов/белков, моделирования биологических систем и изучения генетических механизмов для более глубокого понимания болезней.
- Здравоохранение: данные, генерируемые отраслью здравоохранения, включают полезную информацию о демографических данных пациентов, планах лечения, оплате и страховом покрытии. Существующие исследования зафиксировали применение интеллектуального анализа данных в клинической медицине, обнаружение сигналов побочных реакций на лекарства, а также сосредоточение внимания на диабете и кожных заболеваниях. К наиболее часто используемым методам интеллектуального анализа данных в этой категории относятся регрессия, классификация, последовательный анализ шаблонов, ассоциация, кластеризация и хранение данных.
- Геопространственный анализ: алгоритмы интеллектуального анализа данных использовались для создания пространственных карт происхождения ливневой пыли, чтобы смягчить ее воздействие в засушливых средах, места, подверженные овражной эрозии, которая вызывает деградацию земель, были пространственно смоделированы с использованием ГИС и программирования R,
Дополнительные области применения интеллектуального анализа данных см. в статье Приложения интеллектуального анализа данных.