Объединение правил майнинга в R-программировании

Опубликовано: 21 Июля, 2021

Анализ правил ассоциации на языке R - это неконтролируемый нелинейный алгоритм, позволяющий выявить, как элементы связаны друг с другом. В нем частый майнинг показывает, какие элементы появляются вместе в транзакции или связи. Он в основном используется розничными торговцами, продуктовыми магазинами и онлайн-рынками с большой транзакционной базой данных. Точно так же, когда любые онлайн-социальные сети, торговые площадки и сайты электронной коммерции знают, что вы покупаете дальше, с помощью систем рекомендаций. Рекомендации, которые вы получаете по элементу или переменной, пока вы проверяете заказ, связаны с интеллектуальным анализом правил ассоциации, установленным на прошлых данных о клиентах. Есть три распространенных способа измерения ассоциации:

  • Служба поддержки
  • Уверенность
  • Поднимать

Теория

В ассоциативном анализе правил, ассоциациях поддержки, уверенности и подъема.

Служба поддержки сообщает, насколько популярен предмет, который измеряется долей транзакций, в которых появляется набор предметов.

Уверенность показывает, насколько вероятно, что товар Y будет куплен, когда товар X будет куплен, выраженная как {X -> Y}.
Таким образом, он измеряется долей транзакции с товаром X, в которой также присутствует товар Y. Уверенность может искажать важность ассоциации.

Подъем говорит, насколько вероятно, что предмет Y будет куплен, когда предмет X куплен, при этом контролируется, насколько популярным является предмет Y.

Алгоритм Apriori также используется в интеллектуальном анализе ассоциативных правил для обнаружения часто встречающихся наборов элементов в базе данных транзакций. Он был предложен Agrawal & Srikant в 1993 году.

Пример:
Клиент совершает с вами 4 транзакции. В первой транзакции она покупает 1 яблоко, 1 пиво, 1 рис и 1 курицу. Во второй транзакции она покупает 1 яблоко, 1 пиво, 1 рис. В третьей сделке она покупает только 1 яблоко и 1 пиво. В четвертой сделке она покупает 1 яблоко и 1 апельсин.

Поддержка (Apple) = 4/4 

Итак, поддержка {Apple} составляет 4 из 4 или 100%.

Уверенность (Apple -> Beer) = Поддержка (Apple, Beer) / Поддержка (Apple)
                          = (3/4) / (4/4)
                          = 3/4

Итак, уверенность в {Apple -> Beer} составляет 3 из 4 или 75%.

Подъем (пиво -> рис) = поддержка (пиво, рис) / (поддержка (пиво) * поддержка (рис))
                   = (2/4) / (3/4) * (2/4)
                   = 1,33

Таким образом, значение Lift больше 1 означает, что рис, скорее всего, будет куплен, если будет куплено пиво.

Набор данных

Market Basket состоит из 15010 наблюдений с функцией или столбцами «Дата», «Время», «Транзакция» и «Товар». Диапазон значений переменной или столбца даты - с 30.10.2016 по 09.04.2017. Время - это категориальная переменная, указывающая время. Транзакция - это количественная переменная, которая помогает дифференцировать транзакции. Item - это категориальная переменная, которая связана с продуктом.




# Loading data
dataset = read.transactions( 'Market_Basket_Optimisation.csv' ,
sep = ', ' , rm.duplicates = TRUE)
# Structure
str (dataset)

Выполнение анализа правил ассоциации для набора данных

Использование алгоритма анализа правил ассоциации для набора данных, который включает 15010 наблюдений.




# Installing Packages
install.packages( "arules" )
install.packages( "arulesViz" )
# Loading package
library(arules)
library(arulesViz)
# Fitting model
# Training Apriori on the dataset
set .seed = 220 # Setting seed
associa_rules = apriori(data = dataset,
parameter = list (support = 0.004 ,
confidence = 0.2 ))
# Plot
itemFrequencyPlot(dataset, topN = 10 )
# Visualising the results
inspect(sort(associa_rules, by = 'lift' )[ 1 : 10 ])
plot(associa_rules, method = "graph" ,
measure = "confidence" , shading = "lift" )

Выход:

  • Модель associa_rules:

    Минимальная длина модели - 1, максимальная - 10, а целевые правила с абсолютной поддержкой - 30.

  • График частоты товара:

    Итак, минеральная вода - самый продаваемый продукт, за ней следуют яйца, спагетти, картофель фри и т. Д.

  • Визуализация модели:

    Итак, график графиков 100 отображается.

Таким образом, извлечение правил ассоциации широко используется в системах рекомендаций в электронной коммерции, на онлайн-рынках, на веб-сайтах социальных сетей и т. Д. И широко используется в отрасли.