Python | Лемматизация с помощью TextBlob

Опубликовано: 25 Июля, 2021

Лемматизация - это процесс объединения различных флективных форм слова, чтобы их можно было анализировать как единый элемент. Лемматизация похожа на выделение корней, но придает словам контекст. Таким образом, он связывает слова с одинаковым значением в одно слово.

Предварительная обработка текста включает как основание, так и лемматизацию. Часто люди сбивают с толку эти два термина. Некоторые относятся к этим двум как к одному. На самом деле лемматизация предпочтительнее стемминга, потому что лемматизация выполняет морфологический анализ слов.

Применения лемматизации:

  • Используется в комплексных поисковых системах, таких как поисковые системы.
  • Используется при компактном индексировании.
Примеры лемматизации:

-> камни: рок
-> корпус: корпус
-> лучше: хорошо

Одно из основных отличий от стемминга заключается в том, что лемматизация принимает часть параметра речи, «pos». Если не указан, по умолчанию используется «существительное».

Ниже представлена реализация лемматизации слов с помощью TextBlob:




# from textblob lib import Word method
from textblob import Word
# create a Word object.
u = Word( "rocks" )
# apply lemmatization.
print ( "rocks :" , u.lemmatize())
# create a Word object.
v = Word( "corpora" )
# apply lemmatization.
print ( "corpora :" , v.lemmatize())
# create a Word object.
w = Word( "better" )
# apply lemmatization with
# parameter "a", "a" denotes adjective.
print ( "better :" , w.lemmatize( "a" ))

Выход :

скалы: рок
корпус: корпус
лучше: хорошо