Загрузить текст в Tensorflow

Опубликовано: 21 Февраля, 2023

В этой статье мы увидим, как загрузить текст в Tensorflow с помощью Python.

Tensorflow — это платформа машинного обучения с открытым исходным кодом, которая помогает создавать готовые конвейеры машинного обучения. Используя Tensorflow, можно легко управлять большими наборами данных и разрабатывать модель нейронной сети в несколько строк кода. Эти большие наборы данных могут включать аудио, изображения, видео или текст. В этой статье мы сосредоточимся на текстовом наборе данных.

Как загрузить текст в Tensorflow?

Текст — наиболее часто используемая форма данных в современном мире реального времени. Документация, сообщения в СМИ, разговоры в социальных сетях и статьи в блогах — все это представлено в виде текста. Весь текст поставляется в необработанном виде для использования в моделях машинного обучения. Tensorflow предоставляет поддержку утилит для загрузки текста.

Давайте возьмем пример, чтобы продемонстрировать, как загружать и предварительно обрабатывать текст.

Прежде чем продолжить, давайте сначала импортируем необходимые модули и загрузим набор данных.

Python3




import tensorflow as tf
import tensorflow.keras as keras
import pathlib
  
  
download = keras.utils.get_file(
    origin=url, untar=True, cache_dir="stack_overflow")
DATA_DIR = pathlib.Path(download).parent
print(pathlib.os.listdir(DATA_DIR))
print(pathlib.os.listdir(f"{DATA_DIR}/train"))

Выход:

["train", "stack_overflow_16k.tar.gz", "test", "README.md"]
["java", "python", "csharp", "javascript"]

Мы загрузили текстовые данные вопроса Stack Overflow в приведенном выше коде, используя Keras API. Метод utils.get_file принимает URL-адрес источника, который содержит фактические данные. При установке untar=True набор данных автоматически распаковывается и сохраняется в каталоге. Модель машинного обучения постоянно обучается на данных обучения, проверяется на данных проверки и тестируется на данных тестирования.

text_dataset_from_directory

Tensorflow позволяет нам читать или загружать текст непосредственно из каталога и, кроме того, позволяет нам разделить набор данных на обучение и проверку, используя один и тот же метод.

Учебный каталог состоит из вопросов по Java, Python, C# и JavaScript, каждый из которых содержит 2000 текстов.

Выход:

java contains 2000 text
python contains 2000 text
csharp contains 2000 text
javascript contains 2000 text

Чтобы создать данные проверки и назначить метки для данных, мы теперь будем использовать метод text_dataset_from_directory, который используется для загрузки текста из каталога.

Выход:

Found 8000 files belonging to 4 classes.
Using 6400 files for training.

Found 8000 files belonging to 4 classes.
Using 1600 files for validation.

Вот как вы можете загрузить текст в Tensorflow.