Мнения в тексте - кодировки на основе слов

Опубликовано: 21 Июля, 2021

Сентиментальный анализ - это обработка описания того, является ли конкретное чувство или мнение положительным, отрицательным или нейтральным. Например, «Я ненавижу свой обед», «Я люблю свой обед» и «Мне нравится мой обед». В каждом из этих предложений есть отрицательный, положительный и нейтральный тон. В широком масштабе сентиментальный анализ используется для определения отзывов клиентов через комментарии. Эти комментарии помогают в создании систем рекомендаций для использования в будущем.

Как понять значение слова в предложении?

Мы могли бы взять значения ASCII символа, но поможет ли это нам понять семантику слова? Возьмем к сведению слово «двоичный», его также можно записать как «умный». Очевидно, что оба этих слова имеют одно и то же значение ASCII, но имеют совершенно разное значение. Обучить нейронную сеть с помощью слов - сложная задача. Решение всего этого в том, если бы мы могли придавать словам значение и использовать их в модели обучения.

Рассмотрим предложение «Я люблю свой обед», давайте дадим ему какое-нибудь случайное число. Допустим, значения равны 1, 2, 3 и 4 соответственно. Допустим, у нас есть другое предложение «Я люблю свою кошку», мы можем повторно использовать предыдущие значения и дать новый токен слову «кошка». Допустим, значение кота равно 5. В обоих предложениях есть сходство 4 значений. Это начало обучения нейронной сети. К счастью, у нас есть API вроде Tensorflow . Выполните следующие шаги, чтобы обучить вашу модель

  • Шаг 1. Импорт необходимых библиотек

  • Шаг 2. Составьте список предложений

  • Шаг 3. Создайте объект Tokenizer

  • Шаг 4. Используйте метод fit_on_text

  • Шаг 5: распечатайте word_index

Ниже представлена реализация.




import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [
"I love my lunch" ,
"I love my cat !"
]
tokenizer = Tokenizer(num_words = 100 )
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print (word_index)

Выход:

 {'i': 1, 'love': 2, 'my': 3, 'обед': 4, 'cat': 5}