Токенизация текста с помощью NLTK в Python
Чтобы запустить приведенную ниже программу на Python, в вашей системе должен быть установлен набор инструментов для естественного языка (NLTK).
Модуль NLTK - это обширный набор инструментов, призванный помочь вам со всей методологией обработки естественного языка (NLP).
Чтобы установить NLTK, выполните следующие команды в своем терминале.
- sudo pip установить nltk
- Затем введите оболочку python в свой терминал, просто набрав python
- Введите import nltk
- nltk.download ('все')
Вышеупомянутая установка займет некоторое время из-за огромного количества токенизаторов, блоков, других алгоритмов и всех корпусов, которые необходимо загрузить.
- Некоторые термины, которые будут использоваться часто:
- Корпус - основной текст в единственном числе. Корпорация - это множественное число от этого.
- Лексикон - Слова и их значения.
- Токен - каждая «сущность», которая является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «токенизируется» в слова. Каждое предложение также может быть токеном, если вы выделили предложения из абзаца.
Таким образом, токенизация включает в себя разделение предложений и слов из основного текста.
# import the existing word and sentence tokenizing
# libraries
from
nltk.tokenize
import
sent_tokenize, word_tokenize
text
=
"Natural language processing (NLP) is a field "
+
"of computer science, artificial intelligence "
+
"and computational linguistics concerned with "
+
"the interactions between computers and human "
+
"(natural) languages, and, in particular, "
+
"concerned with programming computers to "
+
"fruitfully process large natural language "
+
"corpora. Challenges in natural language "
+
"processing frequently involve natural "
+
"language understanding, natural language"
+
"generation frequently from formal, machine"
+
"-readable logical forms), connecting language "
+
"and machine perception, managing human-"
+
"computer dialog systems, or some combination "
+
"thereof."
print
(sent_tokenize(text))
print
(word_tokenize(text))`
ВЫХОД
['Обработка естественного языка (НЛП) - это область информатики, искусственного интеллекта и вычислительной лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками, и, в частности, связанная с программированием компьютеров для плодотворной обработки больших корпусов естественного языка. ',' Проблемы в обработке естественного языка часто связаны с пониманием естественного языка, генерацией естественного языка (часто из формальных, машиночитаемых логических форм), соединением языка и машинного восприятия, управлением диалоговыми системами человек-компьютер или некоторой их комбинацией. ']
['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'компьютер', 'наука', ' , ',' искусственный ',' интеллект ',' и ',' вычислительный ',' лингвистика ',' заинтересованный ',' с ',' взаимодействие ',' между ',' компьютерами ',' и ' , 'человек', '(', 'естественный', ')', 'языки', ',', 'и', ',', 'в', 'особый', ',', 'заинтересованный', ' с ',' программирование ',' компьютеры ',' к ',' плодотворно ',' процесс ',' большой ',' естественный ',' язык ',' корпус ','. ',' вызовы ',' в ' , "естественный", "язык", "обработка", "часто", "вовлечение", "естественный", "язык", "понимание", ",", "естественный", "язык", "поколение", " (',' часто ',' от ',' формальный ',', ',' машиночитаемый ',' логический ',' формы ',') ',', ',' соединение ',' язык ',' и ',' машина ',' восприятие ',', ',' управление ',' человек-компьютер ',' диалог ',' системы ',', ',' или ',' некоторые ',' комбинация ',' из них ','. ']Итак, мы создали токены, которые изначально представляют собой предложения, а позже - слова.
Эта статья предоставлена Пратимой Упадхьяй . Если вам нравится GeeksforGeeks, и вы хотели бы внести свой вклад, вы также можете написать статью с помощью provide.geeksforgeeks.org или отправить ее по электронной почте на deposit@geeksforgeeks.org. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.
Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или вы хотите поделиться дополнительной информацией по теме, обсужденной выше.
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.