Поиск информации в Интернете | Векторная модель пространства

Опубликовано: 18 Августа, 2021

Само собой разумеется, что в целом поисковая система отвечает на заданный запрос с помощью ранжированного списка релевантных документов. Цель этой статьи - описать первый подход к поиску релевантных документов по заданному запросу. В модели векторного пространства (VSM) каждый документ или запрос представляет собой N-мерный вектор, где N - количество различных терминов по всем документам и запросам. I-й индекс вектора содержит оценку i-го термин для этого вектора.

Основные функции оценки основаны на: Term-Frequency (tf) и Inverse-Document-Frequency (idf).

Частота термина и обратная частота документа -
Термин-частота ( ) вычисляется относительно i-го члена и j-го документа:

где вхождения i-го термина в j-й документ.

Идея состоит в том, что если в документе есть несколько приемов данных терминов, он, вероятно, будет иметь дело с этим аргументом.
Частота обратного документа ( ) учитывает i-е термины и все документы в сборнике:

Интуиция подсказывает, что редкие термины более важны, чем общие: если термин присутствует только в документе, он может означать, что этот термин характеризует этот документ.
Итоговая оценка для i-го члена j-го документа состоит из простого умножения: . Поскольку документ / запрос содержит только подмножество всех отдельных терминов в коллекции, частота термина может быть равна нулю для большого количества терминов: это означает, что требуется разреженное векторное представление для оптимизации требований к пространству.

Косинусное подобие -
Чтобы вычислить сходство между двумя векторами: a, b (документ / запрос, но также документ / документ), используется косинусное сходство:

(1)

Эта формула вычисляет косинус угла, описываемого двумя нормализованными векторами: если векторы близки, угол мал и актуальность высока.
Можно показать, что косинусное подобие равно евклидову расстоянию в предположении векторной нормализации.

Улучшения -
Есть тонкая проблема с векторной нормализацией: короткий документ, который говорит об одной теме, может иметь преимущество за счет длинного документа, который имеет дело с большим количеством тем, потому что нормализация не принимает во внимание длину документа.

Идея поворотной нормализации состоит в том, чтобы сделать документ короче, чем эмпирическое значение (длина поворота: ) менее актуален, а документ более актуален, как показано на следующем изображении: Поворотная нормализация

Большой проблемой, которую не принимают во внимание в VSM, являются синонимы: нет семантической связи между терминами, поскольку она не фиксируется ни частотой термина, ни обратной частотой документа. Для решения этой проблемы была введена обобщенная модель векторного пространства (GVSM).