Объединение правил майнинга в R-программировании
Анализ правил ассоциации на языке R - это неконтролируемый нелинейный алгоритм, позволяющий выявить, как элементы связаны друг с другом. В нем частый майнинг показывает, какие элементы появляются вместе в транзакции или связи. Он в основном используется розничными торговцами, продуктовыми магазинами и онлайн-рынками с большой транзакционной базой данных. Точно так же, когда любые онлайн-социальные сети, торговые площадки и сайты электронной коммерции знают, что вы покупаете дальше, с помощью систем рекомендаций. Рекомендации, которые вы получаете по элементу или переменной, пока вы проверяете заказ, связаны с интеллектуальным анализом правил ассоциации, установленным на прошлых данных о клиентах. Есть три распространенных способа измерения ассоциации:
- Служба поддержки
- Уверенность
- Поднимать
Теория
В ассоциативном анализе правил, ассоциациях поддержки, уверенности и подъема.
Служба поддержки сообщает, насколько популярен предмет, который измеряется долей транзакций, в которых появляется набор предметов.
Уверенность показывает, насколько вероятно, что товар Y будет куплен, когда товар X будет куплен, выраженная как {X -> Y}.
Таким образом, он измеряется долей транзакции с товаром X, в которой также присутствует товар Y. Уверенность может искажать важность ассоциации.
Подъем говорит, насколько вероятно, что предмет Y будет куплен, когда предмет X куплен, при этом контролируется, насколько популярным является предмет Y.
Алгоритм Apriori также используется в интеллектуальном анализе ассоциативных правил для обнаружения часто встречающихся наборов элементов в базе данных транзакций. Он был предложен Agrawal & Srikant в 1993 году.
Пример:
Клиент совершает с вами 4 транзакции. В первой транзакции она покупает 1 яблоко, 1 пиво, 1 рис и 1 курицу. Во второй транзакции она покупает 1 яблоко, 1 пиво, 1 рис. В третьей сделке она покупает только 1 яблоко и 1 пиво. В четвертой сделке она покупает 1 яблоко и 1 апельсин.
Поддержка (Apple) = 4/4 Итак, поддержка {Apple} составляет 4 из 4 или 100%. Уверенность (Apple -> Beer) = Поддержка (Apple, Beer) / Поддержка (Apple) = (3/4) / (4/4) = 3/4 Итак, уверенность в {Apple -> Beer} составляет 3 из 4 или 75%. Подъем (пиво -> рис) = поддержка (пиво, рис) / (поддержка (пиво) * поддержка (рис)) = (2/4) / (3/4) * (2/4) = 1,33 Таким образом, значение Lift больше 1 означает, что рис, скорее всего, будет куплен, если будет куплено пиво.
Набор данных
Market Basket
состоит из 15010 наблюдений с функцией или столбцами «Дата», «Время», «Транзакция» и «Товар». Диапазон значений переменной или столбца даты - с 30.10.2016 по 09.04.2017. Время - это категориальная переменная, указывающая время. Транзакция - это количественная переменная, которая помогает дифференцировать транзакции. Item - это категориальная переменная, которая связана с продуктом.
# Loading data dataset = read.transactions( 'Market_Basket_Optimisation.csv' , sep = ', ' , rm.duplicates = TRUE) # Structure str (dataset) |
Выполнение анализа правил ассоциации для набора данных
Использование алгоритма анализа правил ассоциации для набора данных, который включает 15010 наблюдений.
# Installing Packages install.packages( "arules" ) install.packages( "arulesViz" ) # Loading package library(arules) library(arulesViz) # Fitting model # Training Apriori on the dataset set .seed = 220 # Setting seed associa_rules = apriori(data = dataset, parameter = list (support = 0.004 , confidence = 0.2 )) # Plot itemFrequencyPlot(dataset, topN = 10 ) # Visualising the results inspect(sort(associa_rules, by = 'lift' )[ 1 : 10 ]) plot(associa_rules, method = "graph" , measure = "confidence" , shading = "lift" ) |
Выход:
- Модель associa_rules:
Минимальная длина модели - 1, максимальная - 10, а целевые правила с абсолютной поддержкой - 30.
- График частоты товара:
Итак, минеральная вода - самый продаваемый продукт, за ней следуют яйца, спагетти, картофель фри и т. Д.
- Визуализация модели:
Итак, график графиков 100 отображается.
Таким образом, извлечение правил ассоциации широко используется в системах рекомендаций в электронной коммерции, на онлайн-рынках, на веб-сайтах социальных сетей и т. Д. И широко используется в отрасли.