Что такое информационный поиск?
Информационный поиск (IR) можно определить как программу, которая занимается организацией, хранением, поиском и оценкой информации из репозиториев документов, особенно текстовой информации. Поиск информации - это деятельность по получению материала, который обычно может быть задокументирован в неструктурированном виде, то есть обычно текст, который удовлетворяет потребность в информации из больших коллекций, которые хранятся на компьютерах. Например, поиск информации может происходить, когда пользователь вводит запрос в систему.
Не только библиотекари, профессиональные специалисты по поиску и т. Д. Занимаются поиском информации, но в настоящее время сотни миллионов людей ежедневно занимаются поисковыми системами в Интернете. Информационный поиск считается доминирующей формой доступа к информации. IR-система помогает пользователям найти необходимую им информацию, но не дает явных ответов на вопрос. Он сообщает о наличии и местонахождении документов, которые могут содержать требуемую информацию. Извлечение информации также расширяет поддержку пользователей при просмотре или фильтрации коллекции документов или обработке набора извлеченных документов. Система выполняет поиск в миллиардах документов, хранящихся на миллионах компьютеров. Программа электронной почты предоставляет спам-фильтр, ручные или автоматические средства для классификации писем, чтобы их можно было помещать непосредственно в определенные папки.
IR-система может представлять, хранить, систематизировать и получать доступ к элементам информации. Для поиска необходим набор ключевых слов. Ключевые слова - это то, что люди ищут в поисковых системах. Эти ключевые слова резюмируют описание информации.
Что такое ИК-модель?
Модель информационного поиска (IR) выбирает и ранжирует документ, который требуется пользователю или который пользователь запросил в форме запроса. Документы и запросы представлены аналогичным образом, поэтому выбор и ранжирование документов можно формализовать с помощью функции сопоставления, которая возвращает значение статуса поиска (RSV) для каждого документа в коллекции. Многие из систем поиска информации представляют содержимое документа с помощью набора дескрипторов, называемых терминами, принадлежащих к словарю V. Модель IR определяет функцию сопоставления запроса и документа в соответствии с четырьмя основными подходами:
The estimation of the probability of user’s relevance rel for each document d and query q with respect to a set R q of training documents:
Prob (rel|d, q, Rq)
Типы ИК-моделей
Компоненты модели поиска информации / IR
- Получение: на этом этапе происходит выбор документов и других объектов из различных веб-ресурсов, которые состоят из текстовых документов. Необходимые данные собираются поисковыми роботами и хранятся в базе данных.
- Представление: он состоит из индексации, которая содержит термины с произвольным текстом, контролируемую лексику, а также ручные и автоматические методы. Пример: Реферат содержит обобщение и библиографическое описание, которое содержит автора, заголовок, источники, данные и метаданные.
- Организация файлов: существует два типа методов организации файлов. т.е. Последовательный : он содержит документы по данным документа. Инвертированный : он содержит термин за термином, список записей по каждому термину. Сочетание того и другого.
- Запрос: IR-процесс запускается, когда пользователь вводит запрос в систему. Запросы - это формальные утверждения информационных потребностей, например строки поиска в поисковых системах. При поиске информации запрос не позволяет однозначно идентифицировать отдельный объект в коллекции. Вместо этого несколько объектов могут соответствовать запросу, возможно, с разной степенью релевантности.
Разница между поиском информации и поиском данных
Поиск информации | Получение данных |
---|---|
Программное обеспечение: программа, которая занимается организацией, хранением, поиском и оценкой информации из репозиториев документов, особенно текстовой информации. | Поиск данных связан с получением данных из системы управления базами данных, такой как ODBMS. Это процесс идентификации и извлечения данных из базы данных на основе запроса, предоставленного пользователем или приложением. |
Получает информацию о предмете. | Определяет ключевые слова в пользовательском запросе и извлекает данные. |
Небольшие ошибки, скорее всего, останутся незамеченными. | Единичный объект ошибки означает полный отказ. |
Не всегда хорошо структурирован и семантически неоднозначен. | Имеет четко определенную структуру и семантику. |
Не предоставляет решения пользователю системы баз данных. | Предоставляет решения для пользователя системы баз данных. |
Полученные результаты являются приблизительными. | Полученные результаты являются точными совпадениями. |
Результаты отсортированы по релевантности. | Результаты отсортированы по релевантности. |
Это вероятностная модель. | Это детерминированная модель. |
Взаимодействие пользователя с системой поиска информации
Задача пользователя: сначала предполагается, что информация будет переведена в запрос пользователем. В системе поиска информации есть набор слов, которые передают семантику требуемой информации, тогда как в системе поиска данных выражение запроса используется для передачи ограничений, которым удовлетворяют объекты. Пример: пользователь хочет что-то найти, но в итоге ищет что-то другое. Это означает, что пользователь просматривает, а не ищет. На приведенном выше рисунке показано взаимодействие пользователя с различными задачами.
- Логическое представление документов. Давным-давно документы представлялись с помощью набора индексных терминов или ключевых слов. В настоящее время современные компьютеры представляют документы полным набором слов, что сокращает набор репрезентативных ключевых слов. Это может быть сделано путем исключения игнорируемых слов, т. Е. Статей и связок. Эти операции являются текстовыми операциями. Эти текстовые операции снижают сложность представления документа от полного текста до набора терминов индекса.
Прошлое, настоящее и будущее поиска информации
1. Ранние разработки. Поскольку потребность в большом количестве информации возросла, возникла необходимость в создании структур данных для получения более быстрого доступа. Индекс - это структура данных для более быстрого поиска информации. На протяжении столетий для индексов выполнялась ручная категоризация иерархий.
2. Поиск информации в библиотеках: Библиотеки были первыми, кто внедрил IR-системы для поиска информации. В первом поколении он состоял из автоматизации предыдущих технологий, и поиск был основан на имени автора и названии. Во втором поколении он включал поиск по предметным заголовкам, ключевым словам и т. Д. В третьем поколении он состоял из графических интерфейсов, электронных форм, гипертекстовых функций и т. Д.
3. Интернет и электронные библиотеки: они дешевле, чем различные источники информации, они обеспечивают больший доступ к сетям благодаря цифровой связи и дают бесплатный доступ для публикации на более крупных носителях.