Загрузить текст в Tensorflow
В этой статье мы увидим, как загрузить текст в Tensorflow с помощью Python.
Tensorflow — это платформа машинного обучения с открытым исходным кодом, которая помогает создавать готовые конвейеры машинного обучения. Используя Tensorflow, можно легко управлять большими наборами данных и разрабатывать модель нейронной сети в несколько строк кода. Эти большие наборы данных могут включать аудио, изображения, видео или текст. В этой статье мы сосредоточимся на текстовом наборе данных.
Как загрузить текст в Tensorflow?
Текст — наиболее часто используемая форма данных в современном мире реального времени. Документация, сообщения в СМИ, разговоры в социальных сетях и статьи в блогах — все это представлено в виде текста. Весь текст поставляется в необработанном виде для использования в моделях машинного обучения. Tensorflow предоставляет поддержку утилит для загрузки текста.
Давайте возьмем пример, чтобы продемонстрировать, как загружать и предварительно обрабатывать текст.
Прежде чем продолжить, давайте сначала импортируем необходимые модули и загрузим набор данных.
Python3
import tensorflow as tf import tensorflow.keras as keras import pathlib download = keras.utils.get_file( origin = url, untar = True , cache_dir = "stack_overflow" ) DATA_DIR = pathlib.Path(download).parent print (pathlib.os.listdir(DATA_DIR)) print (pathlib.os.listdir(f "{DATA_DIR}/train" )) |
Выход:
["train", "stack_overflow_16k.tar.gz", "test", "README.md"] ["java", "python", "csharp", "javascript"]
Мы загрузили текстовые данные вопроса Stack Overflow в приведенном выше коде, используя Keras API. Метод utils.get_file принимает URL-адрес источника, который содержит фактические данные. При установке untar=True набор данных автоматически распаковывается и сохраняется в каталоге. Модель машинного обучения постоянно обучается на данных обучения, проверяется на данных проверки и тестируется на данных тестирования.
text_dataset_from_directory
Tensorflow позволяет нам читать или загружать текст непосредственно из каталога и, кроме того, позволяет нам разделить набор данных на обучение и проверку, используя один и тот же метод.
Учебный каталог состоит из вопросов по Java, Python, C# и JavaScript, каждый из которых содержит 2000 текстов.
Выход:
java contains 2000 text python contains 2000 text csharp contains 2000 text javascript contains 2000 text
Чтобы создать данные проверки и назначить метки для данных, мы теперь будем использовать метод text_dataset_from_directory, который используется для загрузки текста из каталога.
Выход:
Found 8000 files belonging to 4 classes. Using 6400 files for training. Found 8000 files belonging to 4 classes. Using 1600 files for validation.
Вот как вы можете загрузить текст в Tensorflow.