Python | Токенизация текста с помощью TextBlob

Опубликовано: 25 Июля, 2021

TextBlob представляет собой библиотеку Python и предлагает простой API для доступа к своим методам и выполнения основных задач НЛП. Он построен поверх модуля NLTK.

Установите TextBlob с помощью следующих команд в терминале:

pip install -U textblob
python -m textblob.download_corpora

Это установит TextBlob и загрузит необходимый корпус NLTK. Вышеупомянутая установка займет некоторое время из-за огромного количества токенизаторов, блоков, других алгоритмов и всех корпусов, которые необходимо загрузить.

Некоторые термины, которые будут использоваться часто:

  • Корпус - основной текст в единственном числе. Корпорация - это множественное число от этого.
  • Лексикон - Слова и их значения.
  • Токен - каждая «сущность», которая является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «токенизируется» в слова. Каждое предложение также может быть токеном, если вы выделили предложения из абзаца.

Таким образом, токенизация включает в себя разделение предложений и слов из основного текста.

Выход :

Word Tokenize :
[‘Natural’, ‘language’, ‘processing’, ‘NLP’, ‘is’, ‘a’, ‘field’, ‘of’, ‘computer’, ‘science’, ‘artificial’, ‘intelligence’, ‘and’, ‘computational’, ‘linguistics’, ‘concerned’, ‘with’, ‘the’, ‘interactions’, ‘between’, ‘computers’, ‘and’, ‘human’, ‘natural’, ‘languages’, ‘and’, ‘in’, ‘particular’, ‘concerned’, ‘with’, ‘programming’, ‘computers’, ‘to’, ‘fruitfully’, ‘process’, ‘large’, ‘natural’, ‘language’, ‘corpora’, ‘Challenges’, ‘in’, ‘natural’, ‘language’, ‘processing’, ‘frequently’, ‘involve’, ‘natural’, ‘language’, ‘understanding’, ‘natural’, ‘languagegeneration’, ‘frequently’, ‘from’, ‘formal’, ‘machine-readable’, ‘logical’, ‘forms’, ‘connecting’, ‘language’, ‘and’, ‘machine’, ‘perception’, ‘managing’, ‘human-computer’, ‘dialog’, ‘systems’, ‘or’, ‘some’, ‘combination’, ‘thereof’]

Sentence Tokenize :
[Sentence(“Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process large natural language corpora.”), Sentence(“Challenges in natural language processing frequently involve natural language understanding, natural language generation frequently from formal, machine-readable logical forms), connecting language and machine perception, managing human-computer dialog systems, or some combination thereof.”)]

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.