Что такое интеллектуальный анализ веб-использования?

Опубликовано: 6 Июня, 2021

Интеллектуальный анализ использования Интернета, подмножество интеллектуального анализа данных, в основном представляет собой извлечение различных типов интересных данных, которые легко доступны и доступны в океане огромных веб-страниц, в Интернете или официально известных как World Wide Web (WWW). Являясь одним из приложений метода интеллектуального анализа данных, он помогает анализировать действия пользователей на различных веб-страницах и отслеживать их в течение определенного периода времени. По сути, интеллектуальный анализ использования веб-ресурсов можно разделить на 2 основные подкатегории на основе данных об использовании Интернета.

Существует 3 основных типа веб-данных:

1. Данные веб-контента . Распространенными формами данных веб-контента являются HTML, веб-страницы, изображения, аудио-видео и т. Д. Основным из них является формат HTML. Хотя он может отличаться от браузера к браузеру, общий базовый макет / структура везде одинаковы. Поскольку это самый популярный в данных веб-контента. XML и динамические серверные страницы, такие как JSP, PHP и т. Д., Также являются различными формами данных веб-контента.

2. Данные веб-структуры: на веб-странице есть контент, упорядоченный в соответствии с тегами HTML (которые известны как информация о структуре внутри страницы). Веб-страницы обычно имеют гиперссылки, которые соединяют главную веб-страницу с подчиненными веб-страницами. Это называется информацией о межстраничной структуре. Таким образом, в основном отношения / ссылки, описывающие связь между веб-страницами, являются данными веб-структуры.

3. Данные об использовании Интернета . Основными источниками данных здесь являются веб-сервер и сервер приложений. Он включает данные журнала, которые собираются двумя основными вышеупомянутыми источниками. Файлы журнала создаются, когда пользователь / клиент взаимодействует с веб-страницей. Данные этого типа в основном можно разделить на три типа в зависимости от источника, из которого они поступают:

  • На стороне сервера
  • Сторона клиента
  • Сторона прокси.

Существуют и другие дополнительные источники данных, которые включают файлы cookie, демографические данные и т. Д.

Типы интеллектуального анализа данных об использовании Интернета на основе данных об использовании:

1. Данные веб-сервера: данные веб-сервера обычно включают IP-адрес, журналы браузера, журналы прокси-сервера, профили пользователей и т. Д. Журналы пользователей собираются данными веб-сервера.

2. Данные сервера приложений. На коммерческих серверах приложений добавляется возможность создавать приложения на их основе. Отслеживание различных бизнес-событий и их регистрация в журналах сервера приложений - это в основном то, из чего состоят данные сервера приложений.

3. Данные уровня приложения. В приложении могут присутствовать различные новые виды событий. Включенная в них функция ведения журнала помогает нам получить прошлую запись событий.

Преимущества майнинга веб-использования

  • Государственные учреждения получают выгоду от этой технологии для борьбы с терроризмом.
  • Прогностические возможности инструментов добычи полезных ископаемых помогли выявить различные виды преступной деятельности.
  • С помощью этих инструментов для добычи полезных ископаемых компания лучше понимает отношения с клиентами. Это помогает им быстрее и эффективнее удовлетворять потребности клиентов.

Недостатки Web Usage Mining

  • Конфиденциальность стоит как серьезная проблема. Анализировать данные в интересах клиентов - это хорошо. Но использование тех же данных для чего-то другого может быть опасным. Использование его в пределах осведомленности человека может представлять большую угрозу для компании.
  • При отсутствии высоких этических стандартов в компании, занимающейся интеллектуальным анализом данных, два или более атрибута могут быть объединены, чтобы получить некоторую личную информацию о пользователе, что, опять же, является неважным.

    Некоторые методы исследования использования веб-ресурсов

    1. Правила связывания: Наиболее часто используемый метод интеллектуального анализа веб-использования - это правила связывания. По сути, этот метод фокусируется на отношениях между веб-страницами, которые часто появляются вместе в сеансах пользователей. Страницы, к которым осуществляется доступ вместе, всегда объединяются в один сеанс сервера. Правила ассоциации помогают в реконструкции сайтов с использованием журналов доступа. Журналы доступа обычно содержат информацию о запросах, поступающих на веб-сервер. Главный недостаток этого метода состоит в том, что создание такого большого количества наборов правил вместе может привести к тому, что некоторые из правил будут совершенно несущественными. Их нельзя использовать и в будущем.

    2. Классификация: Классификация в основном предназначена для сопоставления конкретной записи с несколькими предопределенными классами. Основная цель майнинга веб-использования заключается в разработке такого профиля пользователей / клиентов, которые связаны с определенным классом / категорией. Именно для этого требуется извлечь лучшие функции, которые лучше всего подходят для соответствующего класса. Классификация может быть реализована с помощью различных алгоритмов - некоторые из них включают в себя: векторные машины поддержки, K-ближайшие соседи, логистическую регрессию, деревья решений и т. Д. Например, наличие данных о клиентах, касающихся их истории покупок за последние 6 месяцев. клиентов можно разделить на часто встречающиеся и нечастые классы / категории. Мультикласс может быть и в других случаях.

    3. Кластеризация: Кластеризация - это метод группирования набора вещей, имеющих схожие черты / черты. В основном есть 2 типа кластеров: первый - это кластер использования, а второй - кластер страниц. Кластеризация страниц может быть легко выполнена на основе данных об использовании. В кластеризации на основе использования элементы, которые обычно используются / покупаются вместе, могут быть автоматически организованы в группы. Кластеризация пользователей имеет тенденцию создавать группы пользователей с похожими шаблонами просмотра. В кластеризации страниц основная концепция заключается в быстром получении информации через веб-страницы.

    Приложения для майнинга веб-использования

    1. Персонализация веб-контента . Всемирная паутина содержит много информации и очень быстро расширяется день ото дня. Большая проблема в том, что с каждым днем потребности людей растут, и они довольно часто не получают тот результат запроса. Итак, решение этой проблемы - веб-персонализация. Веб-персонализацию можно определить как удовлетворение потребностей пользователя на основе отслеживания его навигационного поведения и их интересов. Веб-персонализация включает в себя рекомендательные системы, настройку флажков и т. Д. Рекомендательные системы популярны и используются многими компаниями.

    2. Электронная коммерция: использование Интернета Майнинг играет очень важную роль в веб-компаниях. Поскольку их основное внимание уделяется привлечению клиентов, удержанию клиентов, перекрестным продажам и т. Д. Для построения прочных отношений с клиентом очень важно, чтобы веб-компания полагалась на интеллектуальный анализ использования Интернета, где они могут получить много информации. об интересах заказчика. Также он рассказывает компании об улучшении своего веб-дизайна в некоторых аспектах.

    3. Предварительная выборка и захват: Предварительная выборка в основном означает загрузку данных до того, как это потребуется, чтобы уменьшить время ожидания этих данных, отсюда и термин «предварительная выборка». Все результаты, которые мы получаем от интеллектуального анализа данных об использовании веб-ресурсов, можно использовать для разработки стратегий предварительной выборки и кэширования, которые, в свою очередь, могут значительно сократить время отклика сервера.

РЕКОМЕНДУЕМЫЕ СТАТЬИ