Процесс KDD в интеллектуальном анализе данных
Data Mining - обнаружение знаний в базах данных (KDD).
Зачем нам нужен Data Mining?
Ежедневно увеличивается объем информации, которую мы можем обрабатывать из деловых операций, научных данных, данных датчиков, изображений, видео и т. Д. Итак, нам нужна система, которая будет способна извлекать суть доступной информации и которая может автоматически создавать отчеты,
просмотры или сводка данных для лучшего принятия решений.
Почему Data Mining используется в бизнесе?
Интеллектуальный анализ данных используется в бизнесе для принятия более эффективных управленческих решений за счет:
- Автоматическое обобщение данных
- Извлечение сути хранимой информации .
- Обнаружение закономерностей в необработанных данных.
Интеллектуальный анализ данных, также известный как обнаружение знаний в базах данных, относится к нетривиальному извлечению неявной, ранее неизвестной и потенциально полезной информации из данных, хранящихся в базах данных.
Шаги, вовлеченные в процесс KDD:
- Очистка данных : очистка данных определяется как удаление из системы сбора зашумленных и неактуальных данных.
- Очистка в случае отсутствия значений .
- Очистка зашумленных данных, где шум является случайной ошибкой или ошибкой дисперсии.
- Очистка с помощью инструментов обнаружения несоответствия данных и преобразования данных .
- Интеграция данных : интеграция данных определяется как разнородные данные из нескольких источников, объединенные в общий источник (хранилище данных).
- Интеграция данных с помощью инструментов переноса данных .
- Интеграция данных с использованием инструментов синхронизации данных .
- Интеграция данных с использованием процесса ETL (извлечение-загрузка-преобразование).
- Выбор данных : выбор данных определяется как процесс, при котором данные, относящиеся к анализу, определяются и извлекаются из сбора данных.
- Выбор данных с помощью нейронной сети .
- Выбор данных с использованием деревьев решений .
- Выбор данных с использованием наивного байеса .
- Выбор данных с использованием кластеризации , регрессии и т. Д.
- Преобразование данных : преобразование данных определяется как процесс преобразования данных в соответствующую форму, требуемую процедурой интеллектуального анализа данных.
Преобразование данных - это двухэтапный процесс:
- Сопоставление данных : присвоение элементов из исходной базы назначению для захвата преобразований.
- Генерация кода : Создание актуальной программы трансформации.
- Интеллектуальный анализ данных: интеллектуальный анализ данных определяется как умные методы, которые применяются для извлечения потенциально полезных шаблонов.
- Преобразует данные, относящиеся к задаче, в шаблоны .
- Определяет цель модели, используя классификацию или характеристику .
- Оценка паттернов : Оценка паттернов определяется как выявление строго возрастающих паттернов, представляющих знания, основанные на заданных показателях.
- Найдите оценку интересности каждого рисунка.
- Использует обобщение и визуализацию, чтобы данные были понятны пользователю.
- Представление знаний : представление знаний определяется как метод, использующий инструменты визуализации для представления результатов интеллектуального анализа данных.
- Создавайте отчеты .
- Сгенерируйте таблицы .
- Сгенерируйте дискриминантные правила , правила классификации, правила характеризации и т. Д.
Примечание :
- KDD - это итеративный процесс, в котором меры оценки могут быть улучшены, интеллектуальный анализ может быть уточнен, новые данные могут быть интегрированы и преобразованы для получения различных и более подходящих результатов.
- Предварительная обработка баз данных состоит из очистки данных и интеграции данных .
Ссылки :
Data Mining: концепции и методы