НЛП | Отмечена часть речи - корпус слов
Что такое теги части речи (POS)?
Это процесс преобразования предложения в формы - список слов, список кортежей (где каждый кортеж имеет форму (слово, тег)). Тег в случае является тегом части речи и указывает, является ли слово существительным, прилагательным, глаголом и т. Д.
Пример корпуса с тегами части речи (POS)
Затраты / at-tl / nn и / cc time / nn вовлеченные / vbn являются / ber астрономическими / jj ./.
Формат для помеченного корпуса имеет форму слово / тег . Каждое слово имеет тег, обозначающий его POS. Например, nn относится к существительному, vb - к глаголу.
Код №1: Создание TaggedCorpusReader. для слов
# Using TaggedCorpusReader from nltk.corpus.reader import TaggedCorpusReader # intitializing x = TaggedCorpusReader( '.' , r '.*.pos' ) words = x.words() print ( "Words :
" , words) tag_words = x.tagged_words() print ( "
tag_words :
" , tag_words) |
Выход :
Слова: ['Затраты', 'и', 'время', 'вовлеченные', 'являются', ...] tag_words: [('The', 'AT-TL'), ('расходы', 'NN'), ('and', 'CC'), ...]
Код # 2: для предложения
tagged_sent = x.tagged_sents() print ( "tagged_sent :
" , tagged_sent) |
Выход :
tagged_sent: [[('The', 'AT-TL'), ('расходы', 'NN'), ('and', 'CC'), ('time', 'NN'), ('вовлеченный', 'VBN'), ('are', 'BER'), ('astronomical', 'JJ'), ('.', '.')]]
Код # 3: для абзацев
para = x.para() print ( "para :
" , para) tagged_para = x.tagged_paras() print ( "
tagged_paras :
" , tagged_paras) |
Выход :
пункт: [[['The', 'Расход', 'and', 'время', 'вовлеченный', 'являются', 'астрономическим', '.']]] tagged_paras: [[[('The', 'AT-TL'), ('расходы', 'NN'), ('and', 'CC'), ('time', 'NN'), ('вовлеченный', 'VBN'), ('are', 'BER'), ('astronomical', 'JJ'), ('.', '.')]]]
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.