Python | Лемматизация с помощью TextBlob
Лемматизация - это процесс объединения различных флективных форм слова, чтобы их можно было анализировать как единый элемент. Лемматизация похожа на выделение корней, но придает словам контекст. Таким образом, он связывает слова с одинаковым значением в одно слово.
Предварительная обработка текста включает как основание, так и лемматизацию. Часто люди сбивают с толку эти два термина. Некоторые относятся к этим двум как к одному. На самом деле лемматизация предпочтительнее стемминга, потому что лемматизация выполняет морфологический анализ слов.
Применения лемматизации:
- Используется в комплексных поисковых системах, таких как поисковые системы.
- Используется при компактном индексировании.
Примеры лемматизации: -> камни: рок -> корпус: корпус -> лучше: хорошо
Одно из основных отличий от стемминга заключается в том, что лемматизация принимает часть параметра речи, «pos». Если не указан, по умолчанию используется «существительное».
Ниже представлена реализация лемматизации слов с помощью TextBlob:
# from textblob lib import Word method from textblob import Word # create a Word object. u = Word( "rocks" ) # apply lemmatization. print ( "rocks :" , u.lemmatize()) # create a Word object. v = Word( "corpora" ) # apply lemmatization. print ( "corpora :" , v.lemmatize()) # create a Word object. w = Word( "better" ) # apply lemmatization with # parameter "a", "a" denotes adjective. print ( "better :" , w.lemmatize( "a" )) |
Выход :
скалы: рок корпус: корпус лучше: хорошо