Категория: Обработка естественного языка

НЛП | Категоризированный текстовый корпус
Если у нас есть большое количество текстовых данных, то их можно разбить на отдельные разделы. Код # 1: категоризация # Loading brown corpusfrom nl...подробнее
НЛП | Отмечена часть речи - корпус слов
Что такое теги части речи (POS)? Это процесс преобразования предложения в формы - список слов, список кортежей (где каждый кортеж имеет форму (слово...подробнее
НЛП | Синсеты для слова в WordNet
WordNet - это лексическая база данных, т.е. словарь для английского языка, специально разработанная для обработки естественного языка. Synset - это о...подробнее
НЛП | Обучение токенизатора и фильтрация стоп-слов в предложении
Зачем нужно обучать токенизатор предложений? В NLTK токенизатор предложений по умолчанию работает для общих целей и работает очень хорошо. Но есть в...подробнее
НЛП | Обучение Unigram Tagger
Одиночный токен называется Юниграммой , например - привет; кино; кодирование. Эта статья посвящена устройству тегов unigram . Unigram Tagger: для опр...подробнее
НЛП | Чанкинг и изменение с помощью RegEx
Извлечение фрагментов или частичный синтаксический анализ - это процесс значимого извлечения коротких фраз из предложения (помеченных как Part-of-Spee...подробнее
НЛП | WuPalmer - подобие WordNet
Как работает подобие Ву и Палмера? Он вычисляет степень родства, учитывая глубину двух синсетов в таксономиях WordNet, а также глубину LCS (наименее...подробнее
НЛП | Словосочетания
Словосочетания - это два или более слов, которые часто встречаются вместе, например, Соединенные Штаты . Есть много других слов, которые могут идти по...подробнее
НЛП | Правила разделения
Ниже приведены шаги, необходимые для разбиения на части -Преобразование предложения в плоское дерево.Создание строки Chunk с использованием этого дере...подробнее
НЛП | Разделение и объединение кусков
Класс SplitRule: для этой цели он разбивает фрагмент на основе указанного шаблона разделения. Он указывается как <NN. *>} {<. *> Т.е. две ...подробнее