Токенизация текста с помощью NLTK в Python

Опубликовано: 26 Июля, 2021

Чтобы запустить приведенную ниже программу на Python, в вашей системе должен быть установлен набор инструментов для естественного языка (NLTK).
Модуль NLTK - это обширный набор инструментов, призванный помочь вам со всей методологией обработки естественного языка (NLP).
Чтобы установить NLTK, выполните следующие команды в своем терминале.

  • sudo pip установить nltk
  • Затем введите оболочку python в свой терминал, просто набрав python
  • Введите import nltk
  • nltk.download ('все')

Вышеупомянутая установка займет некоторое время из-за огромного количества токенизаторов, блоков, других алгоритмов и всех корпусов, которые необходимо загрузить.

    Некоторые термины, которые будут использоваться часто:

  • Корпус - основной текст в единственном числе. Корпорация - это множественное число от этого.
  • Лексикон - Слова и их значения.
  • Токен - каждая «сущность», которая является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «токенизируется» в слова. Каждое предложение также может быть токеном, если вы выделили предложения из абзаца.

    Таким образом, токенизация включает в себя разделение предложений и слов из основного текста.




    # import the existing word and sentence tokenizing
    # libraries
    from nltk.tokenize import sent_tokenize, word_tokenize
    text = "Natural language processing (NLP) is a field " +
    "of computer science, artificial intelligence " +
    "and computational linguistics concerned with " +
    "the interactions between computers and human " +
    "(natural) languages, and, in particular, " +
    "concerned with programming computers to " +
    "fruitfully process large natural language " +
    "corpora. Challenges in natural language " +
    "processing frequently involve natural " +
    "language understanding, natural language" +
    "generation frequently from formal, machine" +
    "-readable logical forms), connecting language " +
    "and machine perception, managing human-" +
    "computer dialog systems, or some combination " +
    "thereof."
    print (sent_tokenize(text))
    print (word_tokenize(text))`

    ВЫХОД
    ['Обработка естественного языка (НЛП) - это область информатики, искусственного интеллекта и вычислительной лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками, и, в частности, связанная с программированием компьютеров для плодотворной обработки больших корпусов естественного языка. ',' Проблемы в обработке естественного языка часто связаны с пониманием естественного языка, генерацией естественного языка (часто из формальных, машиночитаемых логических форм), соединением языка и машинного восприятия, управлением диалоговыми системами человек-компьютер или некоторой их комбинацией. ']
    ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'компьютер', 'наука', ' , ',' искусственный ',' интеллект ',' и ',' вычислительный ',' лингвистика ',' заинтересованный ',' с ',' взаимодействие ',' между ',' компьютерами ',' и ' , 'человек', '(', 'естественный', ')', 'языки', ',', 'и', ',', 'в', 'особый', ',', 'заинтересованный', ' с ',' программирование ',' компьютеры ',' к ',' плодотворно ',' процесс ',' большой ',' естественный ',' язык ',' корпус ','. ',' вызовы ',' в ' , "естественный", "язык", "обработка", "часто", "вовлечение", "естественный", "язык", "понимание", ",", "естественный", "язык", "поколение", " (',' часто ',' от ',' формальный ',', ',' машиночитаемый ',' логический ',' формы ',') ',', ',' соединение ',' язык ',' и ',' машина ',' восприятие ',', ',' управление ',' человек-компьютер ',' диалог ',' системы ',', ',' или ',' некоторые ',' комбинация ',' из них ','. ']

    Итак, мы создали токены, которые изначально представляют собой предложения, а позже - слова.

    Эта статья предоставлена Пратимой Упадхьяй . Если вам нравится GeeksforGeeks, и вы хотели бы внести свой вклад, вы также можете написать статью с помощью provide.geeksforgeeks.org или отправить ее по электронной почте на deposit@geeksforgeeks.org. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.

    Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или вы хотите поделиться дополнительной информацией по теме, обсужденной выше.

    Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

    Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.