Различные фазы прогнозируемой кластеризации в аналитике данных

Опубликовано: 11 Августа, 2021

В этой статье мы собираемся подробно обсудить различные фазы прогнозируемой кластеризации в аналитике данных.

Три этапа прогнозируемой кластеризации:

  1. Фаза инициализации
  2. Итерационная фаза
  3. Фаза уточнения

Это объясняется следующим образом.

1. Фаза инициализации:
Этот этап состоит из двух шагов для выбора расширенного набора.

  • На первом этапе он выбирает случайные выборки точек данных, размер которых пропорционален количеству кластеров, которые пользователь хочет создать, которые задаются как,
     S = случайный размер выборки Ak,

    где A - константа, а k - количество кластеров.

  • Второй шаг, использующий жадный метод, выполняется для получения окончательного набора точек Bk, где B - небольшая константа.

Этот набор обозначен буквой M, где техника восхождения на холм применяется на следующем этапе.

  • Произвольно возьмите образец набора данных.
  • Выберите набор точек данных, которые, вероятно, являются медоидами кластера.

2. Итерационная фаза:
На этапе инициализации мы получили набор точек данных, которые должны содержать медоиды. На этом этапе мы найдем лучшие медоиды из M. Случайным образом выбираем набор текущих точек M и восстанавливаем «плохие» медоиды из другой точки в M, если требуется, за счет чего улучшается качество кластера. Только что сформированный осмысленный набор медоидов обозначается как M best.

Для медоидов следующее будет сделано следующим образом.

  • Определите измерения, связанные с медоидами.
  • Выделите точки данных медоидам.
  • Измерьте сформированные кластеры.
  • Определите плохой медоид и попробуйте результат восстановления плохого медоида.
  • Вышеописанная процедура повторяется до тех пор, пока мы не получим удовлетворительный результат.

3. Фаза уточнения - обработка выбросов:

  • Конечным шагом этого алгоритма является этап уточнения. Эта фаза заключается в повышении качества сформированных кластеров.
  • Кластеры C1, C2, C3,…., Ck, сформированные во время итерационной фазы, являются подачей на эту фазу.
  • Собственный набор данных передается один или несколько раз для повышения качества кластеров.
  • Наборы Di измерений, найденные во время итерационной фазы, удаляются, и новые наборы измерений вычисляются для каждого из набора Ci кластеров.
  • Однажды, когда для кластеров рассчитываются новые измерения, точки переназначаются медоидам, которые сравниваются с этими новыми наборами измерений.
  • Выбросы определяются при последнем проходе данных.

Главный недостаток:

  • Алгоритм требует среднего количества измерений на кластер в качестве структуры входных данных. Производительность прогнозируемой кластеризации сильно зависит от ценности ее входной структуры.
  • Если среднее количество измерений оценено ошибочно, представление прогнозируемой кластеризации значительно ухудшается.