Полная форма DBSCAN
Опубликовано: 21 Июля, 2021
DBSCAN означает пространственную кластеризацию приложений с шумом на основе плотности.
Это популярный метод обучения без учителя, используемый для построения моделей и алгоритмов машинного обучения. Это метод кластеризации, используемый для отделения кластеров с высокой плотностью от кластеров с низкой плотностью. Он разделяет точки данных на множество групп, так что точки, лежащие в одной группе, будут иметь одинаковые свойства. Его предложили Мартин Эстер, Ханс-Петер Кригель, Йорг Сандер и Сяовей Сюй в 1996 году.
DBSCAN разработан для использования с базами данных, которые могут ускорить запросы регионов. Он не может кластеризовать наборы данных с большой разницей в их плотности.
Характеристики
- Он идентифицирует кластеры любой формы в наборе данных, это означает, что он может обнаруживать кластеры произвольной формы.
- Он основан на интуитивных представлениях о кластерах и шумах.
- Он очень надежен в обнаружении выбросов в наборе данных.
- Требуются только две точки, которые очень нечувствительны к порядку появления точек в наборе данных.
Преимущества
- Указание количества кластеров данных в наборе данных не требуется.
- Он может найти кластер любой формы, даже если кластер окружен любым другим кластером.
- Он может легко найти выбросы в наборе данных.
- Он не очень чувствителен к шуму, а значит, устойчив к шуму.
- Это второй по популярности метод кластеризации после K-средних.
Недостатки
- Качество результата зависит от меры расстояния, используемой в функции regionQuery.
- Пограничные точки могут входить в любой кластер в зависимости от порядка обработки, поэтому он не является полностью детерминированным.
- Это может быть дорого, когда стоимость вычисления ближайшего соседа высока.
- Это может быть медленным в исполнении для более высокого измерения.
- Адаптивность вариации локальной плотности меньше.