Различные типы алгоритмов кластеризации

Опубликовано: 26 Июля, 2021

Введение в кластеризацию обсуждается в этой статье, и ее рекомендуется сначала понять.

Алгоритмы кластеризации бывают многих типов. В следующем обзоре будут перечислены только наиболее известные примеры алгоритмов кластеризации, поскольку существует, возможно, более 100 опубликованных алгоритмов кластеризации. Не все предоставляют модели для своих кластеров, и поэтому их нелегко разделить на категории.

Методы, основанные на распределении

Это модель кластеризации, в которой мы подбираем данные о вероятности того, как она может принадлежать к одному и тому же распределению. Сделанная группировка может быть нормальной или гауссовской . Гауссовское распределение более заметно, когда у нас есть фиксированное количество распределений, и все последующие данные вписываются в него, так что распределение данных может быть максимальным. В результате получается группировка, показанная на рисунке: -

Эта модель хорошо работает с синтетическими данными и кластерами различного размера. Но эта модель может иметь проблемы, если ограничения не используются для ограничения сложности модели. Кроме того, кластеризация на основе распределения создает кластеры, которые предполагают четко определенные математические модели, лежащие в основе данных, что является довольно сильным предположением для некоторых распределений данных.
Алгоритм ожидания-максимизации ожидания, который использует многомерные нормальные распределения, является одним из популярных примеров этого алгоритма.

Методы на основе центроидов

По сути, это один из алгоритмов итеративной кластеризации, в котором кластеры формируются близостью точек данных к центроиду кластеров. Здесь центр кластера, то есть центроид , сформирован таким образом, что расстояние между точками данных и центром минимально. Эта проблема в основном относится к категории NP-Hard, и поэтому решения обычно аппроксимируются с помощью ряда попыток.
Для Ex- K - означает, что алгоритм является одним из популярных примеров этого алгоритма.

Самая большая проблема с этим алгоритмом заключается в том, что нам нужно заранее указать K. У него также есть проблема с кластеризацией распределений на основе плотности.

Методы, основанные на подключении

Основная идея модели на основе подключения аналогична модели на основе Centroid, которая в основном определяет кластеры на основе близости точек данных. Здесь мы работаем над понятием, что точки данных, которые расположены ближе, имеют аналогичное поведение по сравнению с точками данных, которые находятся дальше.
Это не единичное разбиение набора данных, вместо этого оно обеспечивает обширную иерархию кластеров, которые сливаются друг с другом на определенных расстояниях. Здесь выбор функции расстояния субъективен. Эти модели очень легко интерпретировать, но им не хватает масштабируемости.


Для Ex- иерархического алгоритма и его вариантов.

Модели плотности

В этой модели кластеризации будет производиться поиск в пространстве данных областей с различной плотностью точек данных в пространстве данных. Он изолирует области с различной плотностью на основе различной плотности, присутствующей в пространстве данных.
Для Ex- DBSCAN и OPTICS .

Подпространственная кластеризация

Кластеризация подпространств - это проблема неконтролируемого обучения, которая направлена на группировку точек данных в несколько кластеров так, чтобы точка данных в одном кластере лежала приблизительно на линейном подпространстве низкой размерности. Кластеризация подпространств - это расширение выбора признаков, так же как и для выбора признаков кластеризация подпространств требует метода поиска и критериев оценки, но, кроме того, кластеризация подпространств ограничивает объем критериев оценки. Алгоритм кластеризации подпространств локализует поиск соответствующего измерения и позволяет им находить кластеры, существующие в нескольких перекрывающихся подпространствах. Первоначально кластеризация подпространств была предназначена для решения очень конкретной проблемы компьютерного зрения, связанной с объединением структуры подпространств в данных, но она привлекает все большее внимание в сообществе статистики и машинного обучения. Люди используют этот инструмент в социальных сетях, в рекомендациях фильмов и в наборе биологических данных. Кластеризация подпространств вызывает озабоченность по поводу конфиденциальности данных, поскольку многие такие приложения связаны с конфиденциальной информацией. Предполагается, что точки данных являются некогерентными, поскольку они защищают только дифференциальную конфиденциальность какой-либо функции пользователя, а не всего профиля пользователя базы данных.
В зависимости от стратегии поиска существует две ветви кластеризации подпространств.

  • Алгоритмы сверху вниз находят начальную кластеризацию в полном наборе измерений и оценивают подпространство каждого кластера.
  • Подход снизу вверх находит плотные области в низкоразмерном пространстве, а затем объединяется в кластеры.

Рекомендации :
аналитика
знать

Улучшено: Pragya vidyarthi