Различные фазы прогнозируемой кластеризации в аналитике данных
В этой статье мы собираемся подробно обсудить различные фазы прогнозируемой кластеризации в аналитике данных.
Три этапа прогнозируемой кластеризации:
- Фаза инициализации
- Итерационная фаза
- Фаза уточнения
Это объясняется следующим образом.
1. Фаза инициализации:
Этот этап состоит из двух шагов для выбора расширенного набора.
- На первом этапе он выбирает случайные выборки точек данных, размер которых пропорционален количеству кластеров, которые пользователь хочет создать, которые задаются как,
S = случайный размер выборки Ak,
где A - константа, а k - количество кластеров.
- Второй шаг, использующий жадный метод, выполняется для получения окончательного набора точек Bk, где B - небольшая константа.
Этот набор обозначен буквой M, где техника восхождения на холм применяется на следующем этапе.
- Произвольно возьмите образец набора данных.
- Выберите набор точек данных, которые, вероятно, являются медоидами кластера.
2. Итерационная фаза:
На этапе инициализации мы получили набор точек данных, которые должны содержать медоиды. На этом этапе мы найдем лучшие медоиды из M. Случайным образом выбираем набор текущих точек M и восстанавливаем «плохие» медоиды из другой точки в M, если требуется, за счет чего улучшается качество кластера. Только что сформированный осмысленный набор медоидов обозначается как M best.
Для медоидов следующее будет сделано следующим образом.
- Определите измерения, связанные с медоидами.
- Выделите точки данных медоидам.
- Измерьте сформированные кластеры.
- Определите плохой медоид и попробуйте результат восстановления плохого медоида.
- Вышеописанная процедура повторяется до тех пор, пока мы не получим удовлетворительный результат.
3. Фаза уточнения - обработка выбросов:
- Конечным шагом этого алгоритма является этап уточнения. Эта фаза заключается в повышении качества сформированных кластеров.
- Кластеры C1, C2, C3,…., Ck, сформированные во время итерационной фазы, являются подачей на эту фазу.
- Собственный набор данных передается один или несколько раз для повышения качества кластеров.
- Наборы Di измерений, найденные во время итерационной фазы, удаляются, и новые наборы измерений вычисляются для каждого из набора Ci кластеров.
- Однажды, когда для кластеров рассчитываются новые измерения, точки переназначаются медоидам, которые сравниваются с этими новыми наборами измерений.
- Выбросы определяются при последнем проходе данных.
Главный недостаток:
- Алгоритм требует среднего количества измерений на кластер в качестве структуры входных данных. Производительность прогнозируемой кластеризации сильно зависит от ценности ее входной структуры.
- Если среднее количество измерений оценено ошибочно, представление прогнозируемой кластеризации значительно ухудшается.