ML | Текстовое обобщение ссылок по запросу пользователя

Опубликовано: 25 Июля, 2021

Всякий раз, когда пользователь ищет определенную информацию в Интернете, возвращается несколько результатов, которые объясняются по-разному. Понимание информации становится трудным и требует много времени.

Скажем, например, когда пользователь ищет «машинное обучение» в Google, возвращается количество результатов. Результаты, полученные Google, связанные с «машинным обучением», объясняют «машинное обучение» по-разному. Разобраться в различных определениях «машинного обучения» становится сложно и отнимает много времени. Таким образом, учитывая плотный график людей и огромное количество информации, доступной в Интернете, существует потребность в автоматическом суммировании ссылок на основе пользовательского запроса.

Введение в обобщение текста:
Обобщение текста - это процесс создания более короткой версии текста, содержащей только важную информацию, и, таким образом, помогает пользователю понять текст за более короткий промежуток времени. Основное преимущество реферирования текста заключается в том, что оно сокращает время пользователя на поиск важных деталей в документе.

Есть два основных подхода к обобщению текстовых документов:

  1. Метод извлечения: он включает в себя выбор фраз и предложений из исходного текста и включение их в окончательное резюме.

    Пример:

    Original Text : Python is a high-level, interpreted, interactive and object-oriented scripting language.Python is a great language for the beginner-level programmers.

    Extractive Summary : Python is a high-level scripting language is great language for beginner-level programmers.

  2. Абстрактивный метод: Абстрактивный метод включает в себя создание совершенно новых фраз и предложений, чтобы уловить смысл исходного документа.

    Пример:

    Original Text : Python is a high-level, interpreted, interactive and object-oriented scripting language.Python is a great language for the beginner-level programmers

    Abstractive Summary : Python is interpreted and interactive language and it is easy to learn.

    Сравнивая сводки двух методов, мы находим абстрактивный метод, который лучше всего подходит для создания сводок. Резюме, созданное абстрактным методом, - это сводка, которую создаем мы, люди. Хотя это и лучше всего, в абстрактном методе сделано не так много прогресса.

Решение-

Проблему серфинга можно решить, выполнив следующие действия:

  • Разрешить пользователю вводить запрос (в веб-приложении или в приложении).
  • Если запрос действителен, выполните поиск в Google.
  • Google вернет несколько результатов, связанных с запросом, извлечет все ссылки на первой странице (потому что ссылки очень актуальны для пользовательского запроса)
  • Очистите данные со всех ссылок и сохраните их в текстовом файле.
  • Отправьте данные в модели машинного обучения для создания сводки (абстрактной)

    Справка:
    https://machinelearningmaster.com/gentle-introduction-text-summarization/
    https://ai.googleblog.com/2016/08/text-summarization-with-tensorflow.html