Что такое информационный поиск?

Опубликовано: 10 Июня, 2021

Информационный поиск (IR) можно определить как программу, которая занимается организацией, хранением, поиском и оценкой информации из репозиториев документов, особенно текстовой информации. Поиск информации - это деятельность по получению материала, который обычно может быть задокументирован в неструктурированном виде, то есть обычно текст, который удовлетворяет потребность в информации из больших коллекций, которые хранятся на компьютерах. Например, поиск информации может происходить, когда пользователь вводит запрос в систему.

Не только библиотекари, профессиональные специалисты по поиску и т. Д. Занимаются поиском информации, но в настоящее время сотни миллионов людей ежедневно занимаются поисковыми системами в Интернете. Информационный поиск считается доминирующей формой доступа к информации. IR-система помогает пользователям найти необходимую им информацию, но не дает явных ответов на вопрос. Он сообщает о наличии и местонахождении документов, которые могут содержать требуемую информацию. Извлечение информации также расширяет поддержку пользователей при просмотре или фильтрации коллекции документов или обработке набора извлеченных документов. Система выполняет поиск в миллиардах документов, хранящихся на миллионах компьютеров. Программа электронной почты предоставляет спам-фильтр, ручные или автоматические средства для классификации писем, чтобы их можно было помещать непосредственно в определенные папки.

IR-система может представлять, хранить, систематизировать и получать доступ к элементам информации. Для поиска необходим набор ключевых слов. Ключевые слова - это то, что люди ищут в поисковых системах. Эти ключевые слова резюмируют описание информации.

Что такое ИК-модель?

Модель информационного поиска (IR) выбирает и ранжирует документ, который требуется пользователю или который пользователь запросил в форме запроса. Документы и запросы представлены аналогичным образом, поэтому выбор и ранжирование документов можно формализовать с помощью функции сопоставления, которая возвращает значение статуса поиска (RSV) для каждого документа в коллекции. Многие из систем поиска информации представляют содержимое документа с помощью набора дескрипторов, называемых терминами, принадлежащих к словарю V. Модель IR определяет функцию сопоставления запроса и документа в соответствии с четырьмя основными подходами:

The estimation of the probability of user’s relevance rel for each document d and query q with respect to a set R q of training documents:
Prob (rel|d, q, Rq)

Типы ИК-моделей

Компоненты модели поиска информации / IR

  • Получение: на этом этапе происходит выбор документов и других объектов из различных веб-ресурсов, которые состоят из текстовых документов. Необходимые данные собираются поисковыми роботами и хранятся в базе данных.
  • Представление: он состоит из индексации, которая содержит термины с произвольным текстом, контролируемую лексику, а также ручные и автоматические методы. Пример: Реферат содержит обобщение и библиографическое описание, которое содержит автора, заголовок, источники, данные и метаданные.
  • Организация файлов: существует два типа методов организации файлов. т.е. Последовательный : он содержит документы по данным документа. Инвертированный : он содержит термин за термином, список записей по каждому термину. Сочетание того и другого.
  • Запрос: IR-процесс запускается, когда пользователь вводит запрос в систему. Запросы - это формальные утверждения информационных потребностей, например строки поиска в поисковых системах. При поиске информации запрос не позволяет однозначно идентифицировать отдельный объект в коллекции. Вместо этого несколько объектов могут соответствовать запросу, возможно, с разной степенью релевантности.

Разница между поиском информации и поиском данных

Поиск информации Получение данных
Программное обеспечение: программа, которая занимается организацией, хранением, поиском и оценкой информации из репозиториев документов, особенно текстовой информации. Поиск данных связан с получением данных из системы управления базами данных, такой как ODBMS. Это процесс идентификации и извлечения данных из базы данных на основе запроса, предоставленного пользователем или приложением.
Получает информацию о предмете. Определяет ключевые слова в пользовательском запросе и извлекает данные.
Небольшие ошибки, скорее всего, останутся незамеченными. Единичный объект ошибки означает полный отказ.
Не всегда хорошо структурирован и семантически неоднозначен. Имеет четко определенную структуру и семантику.
Не предоставляет решения пользователю системы баз данных. Предоставляет решения для пользователя системы баз данных.
Полученные результаты являются приблизительными. Полученные результаты являются точными совпадениями.
Результаты отсортированы по релевантности. Результаты отсортированы по релевантности.
Это вероятностная модель. Это детерминированная модель.

Взаимодействие пользователя с системой поиска информации

Задача пользователя: сначала предполагается, что информация будет переведена в запрос пользователем. В системе поиска информации есть набор слов, которые передают семантику требуемой информации, тогда как в системе поиска данных выражение запроса используется для передачи ограничений, которым удовлетворяют объекты. Пример: пользователь хочет что-то найти, но в итоге ищет что-то другое. Это означает, что пользователь просматривает, а не ищет. На приведенном выше рисунке показано взаимодействие пользователя с различными задачами.

  • Логическое представление документов. Давным-давно документы представлялись с помощью набора индексных терминов или ключевых слов. В настоящее время современные компьютеры представляют документы полным набором слов, что сокращает набор репрезентативных ключевых слов. Это может быть сделано путем исключения игнорируемых слов, т. Е. Статей и связок. Эти операции являются текстовыми операциями. Эти текстовые операции снижают сложность представления документа от полного текста до набора терминов индекса.

Прошлое, настоящее и будущее поиска информации

1. Ранние разработки. Поскольку потребность в большом количестве информации возросла, возникла необходимость в создании структур данных для получения более быстрого доступа. Индекс - это структура данных для более быстрого поиска информации. На протяжении столетий для индексов выполнялась ручная категоризация иерархий.

2. Поиск информации в библиотеках: Библиотеки были первыми, кто внедрил IR-системы для поиска информации. В первом поколении он состоял из автоматизации предыдущих технологий, и поиск был основан на имени автора и названии. Во втором поколении он включал поиск по предметным заголовкам, ключевым словам и т. Д. В третьем поколении он состоял из графических интерфейсов, электронных форм, гипертекстовых функций и т. Д.

3. Интернет и электронные библиотеки: они дешевле, чем различные источники информации, они обеспечивают больший доступ к сетям благодаря цифровой связи и дают бесплатный доступ для публикации на более крупных носителях.