Полная форма DBSCAN

Опубликовано: 21 Июля, 2021

DBSCAN означает пространственную кластеризацию приложений с шумом на основе плотности.
Это популярный метод обучения без учителя, используемый для построения моделей и алгоритмов машинного обучения. Это метод кластеризации, используемый для отделения кластеров с высокой плотностью от кластеров с низкой плотностью. Он разделяет точки данных на множество групп, так что точки, лежащие в одной группе, будут иметь одинаковые свойства. Его предложили Мартин Эстер, Ханс-Петер Кригель, Йорг Сандер и Сяовей Сюй в 1996 году.
DBSCAN разработан для использования с базами данных, которые могут ускорить запросы регионов. Он не может кластеризовать наборы данных с большой разницей в их плотности.

Характеристики

  • Он идентифицирует кластеры любой формы в наборе данных, это означает, что он может обнаруживать кластеры произвольной формы.
  • Он основан на интуитивных представлениях о кластерах и шумах.
  • Он очень надежен в обнаружении выбросов в наборе данных.
  • Требуются только две точки, которые очень нечувствительны к порядку появления точек в наборе данных.

Преимущества

  • Указание количества кластеров данных в наборе данных не требуется.
  • Он может найти кластер любой формы, даже если кластер окружен любым другим кластером.
  • Он может легко найти выбросы в наборе данных.
  • Он не очень чувствителен к шуму, а значит, устойчив к шуму.
  • Это второй по популярности метод кластеризации после K-средних.

Недостатки

  • Качество результата зависит от меры расстояния, используемой в функции regionQuery.
  • Пограничные точки могут входить в любой кластер в зависимости от порядка обработки, поэтому он не является полностью детерминированным.
  • Это может быть дорого, когда стоимость вычисления ближайшего соседа высока.
  • Это может быть медленным в исполнении для более высокого измерения.
  • Адаптивность вариации локальной плотности меньше.