НЛП | Часть речи - теги по умолчанию

Опубликовано: 25 Июля, 2021

Что такое теги части речи (POS)?
Это процесс преобразования предложения в формы - список слов, список кортежей (где каждый кортеж имеет форму (слово, тег) ). Тег в случае является тегом части речи и указывает, является ли слово существительным, прилагательным, глаголом и т. Д.

Пометка по умолчанию - это основной шаг для разметки части речи. Это выполняется с помощью класса DefaultTagger. Класс DefaultTagger class принимает «тег» как единственный аргумент. NN - это тег существительного в единственном числе. DefaultTagger наиболее полезен, когда он начинает работать с наиболее распространенным тегом части речи. поэтому рекомендуется использовать тег существительного.

Код №1: Как это работает?




# Loading Libraries
from nltk.tag import DefaultTagger
# Defining Tag
tagging = DefaultTagger( 'NN' )
# Tagging
tagging.tag([ 'Hello' , 'Geeks' ])

Выход :

[('Hello', 'NN'), ('Geeks', 'NN')]

У каждого теггера есть tag() который принимает список токенов (обычно список слов, созданных токенизатором слов), где каждый токен представляет собой отдельное слово. tag() возвращает список помеченных токенов - кортеж из (word, tag) .

Как работает DefaultTagger?
Это подкласс SequentialBackoffTagger реализует метод choose_tag() с тремя аргументами.

  • список токенов
  • индекс текущего токена, чтобы выбрать тег.
  • список предыдущих тегов


Код № 2: Пометка предложений




# Loading Libraries
from nltk.tag import DefaultTagger
# Defining Tag
tagging = DefaultTagger( 'NN' )
tagging.tag_sents([[ 'welcome' , 'to' , '.' ], [ 'Geeks' , 'for' , 'Geeks' ]])

Выход :

[[('добро пожаловать', 'NN'), ('в', 'NN'), ('.', 'NN')],
 [("Гики", "NN"), ("для", "NN"), ("Гики", "NN")]]

Примечание. Каждый тег в списке предложений с тегами (в приведенном выше коде) имеет значение NN, поскольку мы использовали DefaultTagger class .

Код №3: Показывает, как убрать отметку.




from nltk.tag import untag
untag([( 'Geeks' , 'NN' ), ( 'for' , 'NN' ), ( 'Geeks' , 'NN' )])

Выход :

["Гики", "для", "Гики"]

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.