Токенизация текста с помощью NLTK в Python
Чтобы запустить приведенную ниже программу на Python, в вашей системе должен быть установлен набор инструментов для естественного языка (NLTK).
Модуль NLTK - это обширный набор инструментов, призванный помочь вам со всей методологией обработки естественного языка (NLP).
Чтобы установить NLTK, выполните следующие команды в своем терминале.
- sudo pip установить nltk
- Затем введите оболочку python в свой терминал, просто набрав python
- Введите import nltk
- nltk.download ('все')
Вышеупомянутая установка займет некоторое время из-за огромного количества токенизаторов, блоков, других алгоритмов и всех корпусов, которые необходимо загрузить.
- Некоторые термины, которые будут использоваться часто:
- Корпус - основной текст в единственном числе. Корпорация - это множественное число от этого.
- Лексикон - Слова и их значения.
- Токен - каждая «сущность», которая является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «токенизируется» в слова. Каждое предложение также может быть токеном, если вы выделили предложения из абзаца.
Таким образом, токенизация включает в себя разделение предложений и слов из основного текста.
# import the existing word and sentence tokenizing# librariesfromnltk.tokenizeimportsent_tokenize, word_tokenizetext="Natural language processing (NLP) is a field "+"of computer science, artificial intelligence "+"and computational linguistics concerned with "+"the interactions between computers and human "+"(natural) languages, and, in particular, "+"concerned with programming computers to "+"fruitfully process large natural language "+"corpora. Challenges in natural language "+"processing frequently involve natural "+"language understanding, natural language"+"generation frequently from formal, machine"+"-readable logical forms), connecting language "+"and machine perception, managing human-"+"computer dialog systems, or some combination "+"thereof."print(sent_tokenize(text))print(word_tokenize(text))`ВЫХОД
['Обработка естественного языка (НЛП) - это область информатики, искусственного интеллекта и вычислительной лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками, и, в частности, связанная с программированием компьютеров для плодотворной обработки больших корпусов естественного языка. ',' Проблемы в обработке естественного языка часто связаны с пониманием естественного языка, генерацией естественного языка (часто из формальных, машиночитаемых логических форм), соединением языка и машинного восприятия, управлением диалоговыми системами человек-компьютер или некоторой их комбинацией. ']
['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'компьютер', 'наука', ' , ',' искусственный ',' интеллект ',' и ',' вычислительный ',' лингвистика ',' заинтересованный ',' с ',' взаимодействие ',' между ',' компьютерами ',' и ' , 'человек', '(', 'естественный', ')', 'языки', ',', 'и', ',', 'в', 'особый', ',', 'заинтересованный', ' с ',' программирование ',' компьютеры ',' к ',' плодотворно ',' процесс ',' большой ',' естественный ',' язык ',' корпус ','. ',' вызовы ',' в ' , "естественный", "язык", "обработка", "часто", "вовлечение", "естественный", "язык", "понимание", ",", "естественный", "язык", "поколение", " (',' часто ',' от ',' формальный ',', ',' машиночитаемый ',' логический ',' формы ',') ',', ',' соединение ',' язык ',' и ',' машина ',' восприятие ',', ',' управление ',' человек-компьютер ',' диалог ',' системы ',', ',' или ',' некоторые ',' комбинация ',' из них ','. ']Итак, мы создали токены, которые изначально представляют собой предложения, а позже - слова.
Эта статья предоставлена Пратимой Упадхьяй . Если вам нравится GeeksforGeeks, и вы хотели бы внести свой вклад, вы также можете написать статью с помощью provide.geeksforgeeks.org или отправить ее по электронной почте на deposit@geeksforgeeks.org. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.
Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или вы хотите поделиться дополнительной информацией по теме, обсужденной выше.
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.