Python | Лемматизация с помощью TextBlob

Опубликовано: 25 Июля, 2021

Лемматизация - это процесс объединения различных флективных форм слова, чтобы их можно было анализировать как единый элемент. Лемматизация похожа на выделение корней, но придает словам контекст. Таким образом, он связывает слова с одинаковым значением в одно слово.

Предварительная обработка текста включает как основание, так и лемматизацию. Часто люди сбивают с толку эти два термина. Некоторые относятся к этим двум как к одному. На самом деле лемматизация предпочтительнее стемминга, потому что лемматизация выполняет морфологический анализ слов.

Применения лемматизации:

Используется в комплексных поисковых системах, таких как поисковые системы.
Используется при компактном индексировании.

Примеры лемматизации:

-> камни: рок
-> корпус: корпус
-> лучше: хорошо

Одно из основных отличий от стемминга заключается в том, что лемматизация принимает часть параметра речи, «pos». Если не указан, по умолчанию используется «существительное».

Ниже представлена реализация лемматизации слов с помощью TextBlob:

 # from textblob lib import Word method
 from textblob import Word
 
# create a Word object.
 u = Word( "rocks" )
 
# apply lemmatization.
 print ( "rocks :" , u.lemmatize())
 
# create a Word object.
 v = Word( "corpora" )
 
# apply lemmatization.
 print ( "corpora :" , v.lemmatize())
 
# create a Word object.
 w = Word( "better" )
  
# apply lemmatization with
 # parameter "a", "a" denotes adjective.
 print ( "better :" , w.lemmatize( "a" )) 

Выход :

скалы: рок
корпус: корпус
лучше: хорошо

Python Машинное обучение Technical Scripter

Python | Лемматизация с помощью TextBlob

РЕКОМЕНДУЕМЫЕ СТАТЬИ