Кластеризация в машинном обучении

Опубликовано: 26 Июля, 2021

Введение в кластеризацию

По сути, это метод обучения без учителя . Метод обучения без учителя - это метод, при котором мы извлекаем ссылки из наборов данных, состоящих из входных данных без помеченных ответов. Как правило, он используется как процесс для поиска значимой структуры, объясняющих лежащих в основе процессов, генеративных функций и группировок, присущих набору примеров.
Кластеризация - это задача разделения совокупности или точек данных на несколько групп, чтобы точки данных в тех же группах были более похожи на другие точки данных в той же группе и отличались от точек данных в других группах. По сути, это набор объектов на основе сходства и несходства между ними.

Например - точки данных на графике ниже, сгруппированные вместе, можно классифицировать в одну группу. Мы можем различать кластеры, и мы можем определить, что на картинке ниже есть 3 кластера.

Необязательно, чтобы кластеры были сферическими. Такой как :

DBSCAN: пространственная кластеризация приложений с шумом на основе плотности
Эти точки данных группируются с использованием базовой концепции, согласно которой точка данных находится в пределах заданного ограничения от центра кластера. Для вычисления выбросов используются различные дистанционные методы и методы.

Почему кластеризация?
Кластеризация очень важна, поскольку она определяет внутреннюю группировку среди имеющихся немаркированных данных. Нет никаких критериев для хорошей кластеризации. Каковы критерии, которые он может использовать для удовлетворения своих потребностей, зависит от пользователя. Например, мы могли бы быть заинтересованы в поиске представителей однородных групп (сокращение данных), в поиске «естественных кластеров» и описании их неизвестных свойств («естественные» типы данных), в поиске полезных и подходящих группировок («полезных» классов данных). или в поиске необычных объектов данных (обнаружение выбросов). Этот алгоритм должен делать некоторые предположения, которые составляют схожесть точек, и каждое предположение создает разные и одинаково допустимые кластеры.

Методы кластеризации:

  • Методы, основанные на плотности: эти методы рассматривают кластеры как плотную область, имеющую некоторое сходство и отличающуюся от нижней плотной области пространства. Эти методы обладают хорошей точностью и способностью объединять два кластера, например DBSCAN (пространственная кластеризация приложений с шумом на основе плотности) , OPTICS (точки упорядочивания для определения структуры кластеризации) и т. Д.
  • Иерархические методы: кластеры, сформированные этим методом, образуют древовидную структуру, основанную на иерархии. Новые кластеры формируются из ранее сформированного. Он разделен на две категории
    • Агломеративный ( подход снизу вверх )
    • Divisive ( подход сверху вниз )

    примеры CURE (кластеризация с использованием представителей), BIRCH (сбалансированная итеративная редукционная кластеризация и использование иерархий) и т. д.

  • Методы разделения: эти методы разделяют объекты на k кластеров, и каждый раздел образует один кластер. Этот метод используется для оптимизации функции подобия объективных критериев, например, когда расстояние является основным параметром. Пример K-средних, CLARANS (кластеризация больших приложений на основе рандомизированного поиска) и т. Д.
  • Методы на основе сетки: в этом методе пространство данных формируется в виде конечного числа ячеек, которые образуют структуру, подобную сетке. Все операции кластеризации, выполняемые на этих сетках, выполняются быстро и не зависят от количества объектов данных, например STING (статистическая информационная сетка), волнового кластера, CLIQUE (кластеризация в поисках) и т. Д.

Алгоритмы кластеризации:

Алгоритм кластеризации K-средних - это простейший алгоритм обучения без учителя, который решает проблему кластеризации. Алгоритм K-средних разбивает n наблюдений на k кластеров, где каждое наблюдение принадлежит кластеру, а ближайшее среднее значение служит прототипом кластера.

Приложения кластеризации в разных областях

  • Маркетинг: его можно использовать для характеристики и выявления клиентских сегментов в маркетинговых целях.
  • Биология: может использоваться для классификации различных видов растений и животных.
  • Библиотеки: используется для группирования различных книг на основе тем и информации.
  • Страхование: используется для подтверждения клиентов, их политики и выявления мошенничества.

Планирование города: он используется для создания групп домов и изучения их стоимости на основе их географического положения и других факторов.
Исследования землетрясений: изучая районы, пострадавшие от землетрясения, мы можем определить опасные зоны.

Рекомендации :
Вики
Иерархическая кластеризация
Иярч
Matteucc
аналитика
знать