Токенизация текста с помощью NLTK в Python

Опубликовано: 26 Июля, 2021

Чтобы запустить приведенную ниже программу на Python, в вашей системе должен быть установлен набор инструментов для естественного языка (NLTK).
Модуль NLTK - это обширный набор инструментов, призванный помочь вам со всей методологией обработки естественного языка (NLP).
Чтобы установить NLTK, выполните следующие команды в своем терминале.

sudo pip установить nltk
Затем введите оболочку python в свой терминал, просто набрав python
Введите import nltk
nltk.download ('все')

Вышеупомянутая установка займет некоторое время из-за огромного количества токенизаторов, блоков, других алгоритмов и всех корпусов, которые необходимо загрузить.

Корпус - основной текст в единственном числе. Корпорация - это множественное число от этого.
Лексикон - Слова и их значения.

Токен - каждая «сущность», которая является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «токенизируется» в слова. Каждое предложение также может быть токеном, если вы выделили предложения из абзаца.

Таким образом, токенизация включает в себя разделение предложений и слов из основного текста.

 # import the existing word and sentence tokenizing
 # libraries
 from nltk.tokenize import sent_tokenize, word_tokenize
 
text = "Natural language processing (NLP) is a field " + 
       "of computer science, artificial intelligence " + 
       "and computational linguistics concerned with " + 
       "the interactions between computers and human " + 
       "(natural) languages, and, in particular, " + 
       "concerned with programming computers to " + 
       "fruitfully process large natural language " + 
       "corpora. Challenges in natural language " + 
       "processing frequently involve natural " + 
       "language understanding, natural language" + 
       "generation frequently from formal, machine" + 
       "-readable logical forms), connecting language " + 
       "and machine perception, managing human-" + 
       "computer dialog systems, or some combination " + 
       "thereof."
 
print (sent_tokenize(text))
 print (word_tokenize(text))` 

ВЫХОД
['Обработка естественного языка (НЛП) - это область информатики, искусственного интеллекта и вычислительной лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками, и, в частности, связанная с программированием компьютеров для плодотворной обработки больших корпусов естественного языка. ',' Проблемы в обработке естественного языка часто связаны с пониманием естественного языка, генерацией естественного языка (часто из формальных, машиночитаемых логических форм), соединением языка и машинного восприятия, управлением диалоговыми системами человек-компьютер или некоторой их комбинацией. ']
['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'компьютер', 'наука', ' , ',' искусственный ',' интеллект ',' и ',' вычислительный ',' лингвистика ',' заинтересованный ',' с ',' взаимодействие ',' между ',' компьютерами ',' и ' , 'человек', '(', 'естественный', ')', 'языки', ',', 'и', ',', 'в', 'особый', ',', 'заинтересованный', ' с ',' программирование ',' компьютеры ',' к ',' плодотворно ',' процесс ',' большой ',' естественный ',' язык ',' корпус ','. ',' вызовы ',' в ' , "естественный", "язык", "обработка", "часто", "вовлечение", "естественный", "язык", "понимание", ",", "естественный", "язык", "поколение", " (',' часто ',' от ',' формальный ',', ',' машиночитаемый ',' логический ',' формы ',') ',', ',' соединение ',' язык ',' и ',' машина ',' восприятие ',', ',' управление ',' человек-компьютер ',' диалог ',' системы ',', ',' или ',' некоторые ',' комбинация ',' из них ','. ']

Итак, мы создали токены, которые изначально представляют собой предложения, а позже - слова.

Эта статья предоставлена Пратимой Упадхьяй . Если вам нравится GeeksforGeeks, и вы хотели бы внести свой вклад, вы также можете написать статью с помощью provide.geeksforgeeks.org или отправить ее по электронной почте на deposit@geeksforgeeks.org. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.

Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или вы хотите поделиться дополнительной информацией по теме, обсужденной выше.

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.

Python Машинное обучение Продвинутая компьютерная тематика

Токенизация текста с помощью NLTK в Python

РЕКОМЕНДУЕМЫЕ СТАТЬИ