Правило ассоциации

Опубликовано: 25 Июля, 2021

Интеллектуальный анализ ассоциативных правил находит интересные ассоциации и отношения между большими наборами элементов данных. Это правило показывает, как часто набор элементов встречается в транзакции. Типичный пример - рыночный анализ.

Рыночный анализ - один из ключевых методов, используемых в крупных отношениях для выявления ассоциаций между товарами. Он позволяет розничным продавцам определять отношения между товарами, которые люди часто покупают вместе.

Учитывая набор транзакций, мы можем найти правила, которые будут предсказывать появление элемента на основе вхождений других элементов в транзакции.

TID Предметы
1 Хлеб, Молоко
2 Хлеб, Пеленки, Пиво, Яйца
3 Молоко, Пеленки, Пиво, Кола
4 Хлеб, Молоко, Пеленки, Пиво
5 Хлеб, Молоко, Пеленки, Кола

Прежде чем мы начнем определять правило, давайте сначала рассмотрим основные определения.

Количество поддержки ( ) - Частота появления набора элементов.

 Здесь  ({Молоко, Хлеб, Пеленки}) = 2

Частый набор элементов - набор элементов, поддержка которого больше или равна пороговому значению minsup.

Правило ассоциации - импликационное выражение в форме X -> Y, где X и Y - любые 2 набора элементов.

 Пример: {Milk, Diaper} -> {Beer}.

Метрики оценки правил -

  • Поддержка (и) -
    Количество транзакций, которые включают элементы в частях {X} и {Y} правила, в процентах от общего количества транзакций. Это мера того, как часто происходит сбор элементов вместе в процентах от всех транзакций.
  • Поддержка = (X + Y) общее -
    Он интерпретируется как доля транзакций, содержащих как X, так и Y.
  • Уверенность (с) -
    Это отношение количества транзакций, которое включает все элементы в {B}, а также количества транзакций, которое включает все элементы в {A}, к количеству транзакций, которое включает все элементы в {A}.
  • Conf (X => Y) = Supp (X Y) Supp (X) -
    Он измеряет, как часто каждый элемент в Y появляется в транзакциях, которые также содержат элементы в X.
  • Лифт (л) -
    Подъем правила X => Y - это достоверность правила, деленная на ожидаемую достоверность, при условии, что наборы элементов X и Y независимы друг от друга. Ожидаемая достоверность - это достоверность, разделенная на частоту {Y}.
  • Лифт (X => Y) = Conf (X => Y) Supp (Y) -
    Значение подъема около 1 означает, что X и Y почти часто появляются вместе, как и ожидалось, больше 1 означает, что они появляются вместе больше, чем ожидалось, и меньше 1 означает, что они выглядят меньше, чем ожидалось. Большие значения подъема указывают на более сильную связь.

Пример. Из приведенной выше таблицы {Milk, Diaper} => {Beer}

 s =  ({Молоко, Пеленки, Пиво})  | T |
= 2/5
= 0,4

c =  (Молоко, Пеленки, Пиво)  (Молоко, подгузник)
= 2/3
= 0,67

l = Supp ({молоко, подгузник, пиво})  Supp ({молоко, подгузник}) * Supp ({пиво})
= 0,4 / (0,6 * 0,6)
= 1,11

Правило ассоциации очень полезно при анализе наборов данных. Данные собираются с помощью сканеров штрих-кода в супермаркетах. Такие базы данных состоят из большого количества записей транзакций, в которых перечислены все товары, купленные клиентом за одну покупку. Таким образом, менеджер может знать, постоянно ли покупаются вместе определенные группы товаров, и использовать эти данные для корректировки макетов магазинов, перекрестных продаж и рекламных акций на основе статистики.