Разница между CURE Clustering и DBSCAN Clustering

Опубликовано: 23 Июля, 2021

Кластеризация - это метод, используемый в обучении без учителя, при котором образцы данных группируются в кластеры на основе сходства присущих им свойств. Кластеризацию также можно определить как метод объединения элементов данных, которые в чем-то похожи. Элементы данных, принадлежащие одним и тем же кластерам, чем-то похожи друг на друга, в то время как элементы данных, принадлежащие разным кластерам, не похожи.

CURE (кластеризация с использованием представителей) и DBSCAN (пространственная кластеризация приложений с шумом на основе плотности) - это алгоритмы кластеризации, используемые в обучении без учителя. CURE - это метод кластеризации на основе иерархии, а DBSCAN - метод кластеризации на основе плотности.

Вот некоторые различия между CURE и DBSCAN:

S.No. CURE Кластеризация Кластеризация DBSCAN
1. CURE Clustering означает кластеризацию с использованием кластеризации представителей. DBSCAN Clustering означает пространственную кластеризацию приложений на основе плотности с кластеризацией шума.
2. Это метод кластеризации на основе иерархии. Это метод кластеризации на основе плотности.
3. Обработка шума при кластеризации CURE неэффективна. Обработка шума при кластеризации DBSCAN эффективна.
4. Алгоритм:
  • Нарисуйте случайную выборку.
  • Разбейте случайную выборку.
  • Частично кластеризуйте раздел.
  • Выбросы выявляются и устраняются.
  • Полученные частичные кластеры объединяются в кластеры.
  • Промаркируйте результат на хранении.
Алгоритм:

  • Все точки выборки данных помечены как основные точки, граничные точки или точки шума.
  • Точки шума устранены.
  • Связаны все основные точки, лежащие в непосредственной близости друг от друга.
  • Связанные друг с другом основные точки сгруппированы в отдельный кластер.
  • Каждому кластеру присваиваются пограничные точки.
5. Он может позаботиться о многомерных наборах данных. Он не работает должным образом для крупномерных наборов данных.
6. Различная плотность точек данных не имеет значения в алгоритме кластеризации CURE. Это не работает должным образом, если точки данных имеют разную плотность.

CURE Архитектура:

Архитектура DBSCAN:

Eps : радиус круга
minPts : Это минимальное количество. точек, которые должны находиться в непосредственной близости от eps.