Мнения в тексте - кодировки на основе слов
Сентиментальный анализ - это обработка описания того, является ли конкретное чувство или мнение положительным, отрицательным или нейтральным. Например, «Я ненавижу свой обед», «Я люблю свой обед» и «Мне нравится мой обед». В каждом из этих предложений есть отрицательный, положительный и нейтральный тон. В широком масштабе сентиментальный анализ используется для определения отзывов клиентов через комментарии. Эти комментарии помогают в создании систем рекомендаций для использования в будущем.
Как понять значение слова в предложении?
Мы могли бы взять значения ASCII символа, но поможет ли это нам понять семантику слова? Возьмем к сведению слово «двоичный», его также можно записать как «умный». Очевидно, что оба этих слова имеют одно и то же значение ASCII, но имеют совершенно разное значение. Обучить нейронную сеть с помощью слов - сложная задача. Решение всего этого в том, если бы мы могли придавать словам значение и использовать их в модели обучения.
Рассмотрим предложение «Я люблю свой обед», давайте дадим ему какое-нибудь случайное число. Допустим, значения равны 1, 2, 3 и 4 соответственно. Допустим, у нас есть другое предложение «Я люблю свою кошку», мы можем повторно использовать предыдущие значения и дать новый токен слову «кошка». Допустим, значение кота равно 5. В обоих предложениях есть сходство 4 значений. Это начало обучения нейронной сети. К счастью, у нас есть API вроде Tensorflow . Выполните следующие шаги, чтобы обучить вашу модель
- Шаг 1. Импорт необходимых библиотек
- Шаг 2. Составьте список предложений
- Шаг 3. Создайте объект Tokenizer
- Шаг 4. Используйте метод fit_on_text
- Шаг 5: распечатайте word_index
Ниже представлена реализация.
import tensorflow as tf from tensorflow import keras from tensorflow.keras.preprocessing.text import Tokenizer sentences = [ "I love my lunch" , "I love my cat !" ] tokenizer = Tokenizer(num_words = 100 ) tokenizer.fit_on_texts(sentences) word_index = tokenizer.word_index print (word_index) |
Выход:
{'i': 1, 'love': 2, 'my': 3, 'обед': 4, 'cat': 5}