Процесс KDD в интеллектуальном анализе данных

Опубликовано: 18 Августа, 2021

Data Mining - обнаружение знаний в базах данных (KDD).

Зачем нам нужен Data Mining?
Ежедневно увеличивается объем информации, которую мы можем обрабатывать из деловых операций, научных данных, данных датчиков, изображений, видео и т. Д. Итак, нам нужна система, которая будет способна извлекать суть доступной информации и которая может автоматически создавать отчеты,
просмотры или сводка данных для лучшего принятия решений.

Почему Data Mining используется в бизнесе?
Интеллектуальный анализ данных используется в бизнесе для принятия более эффективных управленческих решений за счет:

  • Автоматическое обобщение данных
  • Извлечение сути хранимой информации .
  • Обнаружение закономерностей в необработанных данных.

Интеллектуальный анализ данных, также известный как обнаружение знаний в базах данных, относится к нетривиальному извлечению неявной, ранее неизвестной и потенциально полезной информации из данных, хранящихся в базах данных.

Шаги, вовлеченные в процесс KDD:

KDD процесс

  1. Очистка данных : очистка данных определяется как удаление из системы сбора зашумленных и неактуальных данных.
    • Очистка в случае отсутствия значений .
    • Очистка зашумленных данных, где шум является случайной ошибкой или ошибкой дисперсии.
    • Очистка с помощью инструментов обнаружения несоответствия данных и преобразования данных .
  2. Интеграция данных : интеграция данных определяется как разнородные данные из нескольких источников, объединенные в общий источник (хранилище данных).
    • Интеграция данных с помощью инструментов переноса данных .
    • Интеграция данных с использованием инструментов синхронизации данных .
    • Интеграция данных с использованием процесса ETL (извлечение-загрузка-преобразование).
  3. Выбор данных : выбор данных определяется как процесс, при котором данные, относящиеся к анализу, определяются и извлекаются из сбора данных.
    • Выбор данных с помощью нейронной сети .
    • Выбор данных с использованием деревьев решений .
    • Выбор данных с использованием наивного байеса .
    • Выбор данных с использованием кластеризации , регрессии и т. Д.
  4. Преобразование данных : преобразование данных определяется как процесс преобразования данных в соответствующую форму, требуемую процедурой интеллектуального анализа данных.

    Преобразование данных - это двухэтапный процесс:

    • Сопоставление данных : присвоение элементов из исходной базы назначению для захвата преобразований.
    • Генерация кода : Создание актуальной программы трансформации.
  5. Интеллектуальный анализ данных: интеллектуальный анализ данных определяется как умные методы, которые применяются для извлечения потенциально полезных шаблонов.
    • Преобразует данные, относящиеся к задаче, в шаблоны .
    • Определяет цель модели, используя классификацию или характеристику .
  6. Оценка паттернов : Оценка паттернов определяется как выявление строго возрастающих паттернов, представляющих знания, основанные на заданных показателях.
    • Найдите оценку интересности каждого рисунка.
    • Использует обобщение и визуализацию, чтобы данные были понятны пользователю.
  7. Представление знаний : представление знаний определяется как метод, использующий инструменты визуализации для представления результатов интеллектуального анализа данных.
    • Создавайте отчеты .
    • Сгенерируйте таблицы .
    • Сгенерируйте дискриминантные правила , правила классификации, правила характеризации и т. Д.

Примечание :

  • KDD - это итеративный процесс, в котором меры оценки могут быть улучшены, интеллектуальный анализ может быть уточнен, новые данные могут быть интегрированы и преобразованы для получения различных и более подходящих результатов.
  • Предварительная обработка баз данных состоит из очистки данных и интеграции данных .

Ссылки :
Data Mining: концепции и методы