Что языковые модели ИИ могут рассказать нам о человеческом познании?

Опубликовано: 26 Июля, 2024
Что языковые модели ИИ могут рассказать нам о человеческом познании?

Языковые модели - это быстро развивающаяся область искусственного интеллекта, обладающая огромным потенциалом для улучшения нашего понимания процессов познания человека. Однако многие популярные языковые модели когнитивно неправдоподобны по многим причинам. Чтобы они давали достоверное представление о достоверной обработке информации человеком, в них необходимо внедрять прозрачный и правдоподобный механизм обучения. Современные алгоритмы ИИ могут обучаться на таком объёме текста, который доступен человеку за всю его жизнь, но не предполагать, что они отражают все значения слов. Если позаботиться о создании правдоподобных языковых моделей в рамках этих ограничений, они могут стать мощным инструментом для раскрытия природы и масштабов того, как язык формирует семантические знания. Распределив отношения между словами, которые люди представляют в памяти, как лингвистические знания, позволит машинам представлять и обрабатывать семантическую информацию гибко, надёжно, эффективно.

Представьте, что вы слышите, как кто-то рассказывает о своих планах на отпуск, и улавливаете слова «пляж», «мороженое» и «плавание». Нетрудно понять, что этот человек, скорее всего, говорит о летних каникулах, а не о зимних. Но как вы можете прийти к такому выводу? Один из способов состоит в том, чтобы рассмотреть каждый вид деятельности по очереди - поход на пляж, поедание мороженого и купание – это позволяет человеку прийти к выводу, что все они с гораздо большей вероятностью происходят летом, чем зимой. С другой стороны, можно было бы понять, что все услышанные вами слова, как правило, встречаются в контексте лета гораздо чаще, чем в контексте зимы. Вместо того чтобы вдаваться в глубокие рассуждения о сроках проведения отпуска, может быть, достаточно просто вспомнить слово «лето»? Но в этом примере разобраны не все случаи, так как остаётся небольшая вероятность того, что упомянутые слова не относятся именно к летнему отпуску.

Этот пример показывает, что распределительные отношения между словами полезны. Язык полон статистических моделей того, как слова соотносятся друг с другом, которые люди могут пассивно изучать в результате совокупного языкового воздействия и представлять в памяти как лингвистические знания о распределении. В значительной степени дистрибутивные отношения в языке отражают структуру мира. Например, люди часто ходят летом на пляж и поэтому часто говорят о пляже и лете в одном и том же контексте. В результате язык может фиксировать широкий спектр формулировок, которые полезны для когнитивной обработки искусственным интеллектом.

Например, синтагматические отношения изучаются, когда два слова занимают взаимодополняющие синтаксические позиции в одном предложении (например, «у неё карие глаза»). Парадигматические отношения изучаются, когда два слова занимают одну и ту же синтаксическую позицию в разных предложениях (например, «у неё карие глаза» и «у него голубые глаза» связывают карие и голубые парадигматически). Наконец, словесные связи изучаются в ситуациях высокого уровня или темах, не связанных с синтаксическими ролями (например, рассказ об открытии Ньютоном всемирного тяготения связывает яблоко и гравитацию в словесных отношениях).

Компьютерные языковые модели легко улавливают эти распределительные отношения между словами, когда они обучаются на большом корпусе (т.е. коллекции текстов). В основном это результаты исследований в области искусственного интеллекта (ИИ) и компьютерной лингвистики. Уже существует несколько различных семейств языковых моделей. Некоторые просто подсчитывают, как часто различные слова встречаются в определённом интервале вокруг целевого слова. При наличии двух слов они оценивают, как часто эти слова встречаются в одном и том же контексте в разных языках.

Векторно-графические модели накапливают совпадения аналогично вышеприведённым. Учитывая два слова, они используют векторную геометрию, чтобы оценить, насколько близки (схожи) контексты этих слов. Они могут быть легко созданы из любого корпуса. Модели прогнозирования работают совершенно по-другому, обучая нейронную сеть предсказывать целевое слово из заданного контекста (или наоборот). При наличии двух слов они используют векторную геометрию, чтобы оценить, насколько схожи представления этих слов в сети.

Наконец, модели-трансформеры обучают очень большую нейронную сеть предсказывать целевое слово (или группу слов) из заданного контекста, используя сложный набор настроек для определения приоритетности более важных фраз, а затем, как правило, переобучают модель для точной настройки её применения к конкретной задаче. Вместо того, чтобы создавать представление для каждого встречающегося слова, они обрабатывают слово отдельно в зависимости от контекста, в котором оно встречается. При наличии двух слов разные алгоритмы используют разные методы свёртывания своих контекстуальных представлений для их оценки. Примерами могут служить двунаправленные кодирующие представления от самого известного генеративного OpenAI (GPT). Их размер и сложность (т.е. от миллионов до триллионов параметров) делают их дорогостоящими и требуют не только много времени для обучения, а ещё и мощных выделенных серверов в надёжных дата-центрах, а поэтому чаще всего они используются в готовых версиях.

Разработчики заинтересованы в воспроизведении когнитивных процессов человека со всеми их ограничениями и ошибками, а поэтому должны - по определению - обращать внимание на когнитивную достоверность рассматриваемой модели, чтобы делать значимые выводы. Большие различия между различными формами ИИ поднимают вопрос: какие из этих алгоритмов/нейросетей выполняют то же, что и люди?

Как правило, ученые-когнитивисты изучают разные языки и теории машинного обучения, сравнивая их эффективность при выполнении определённых когнитивных задач с эффективностью человека при выполнении тех же задач. Если языковая модель должна дать какое-либо представление о человеческом познании, то она должна быть правдоподобной. Другими словами, способ, которым компьютер изучает, обрабатывает и представляет информацию в когнитивных задачах, должен достоверно соответствовать тому, как может думать человек.Один из ключевых критериев касается механизмов обучения и функционирования.

Модели прогнозирования более противоречивы в том, что они используют управляемое ошибками обучение под наблюдением, особенно в форме обратного распространения, при котором разница между выводами модели и правильным ответом передаётся обратно в сеть до тех пор, пока она постепенно не усвоит желаемые паттерны ассоциаций между словами. То есть машина учится на своих ошибках, поскольку это согласуется с принципами обучения с подкреплением. Но обратное распространение приводит к тому, что модель катастрофически «забывает» старую информацию, что невозможно для изучения языка и семантики. С точки зрения производительности, прогнозирующие модели, как правило, хорошо справляются со многими из тех же задач, что и векторно-графические модели, лучше адаптируясь к работе человека в парадигматических задачах, но хуже - в задачах с набором слов. Они могут изучать такие отношения, абстрагируясь от сходных контекстов (во многом подобно векторным), но их оптимизация, по-видимому, происходит за счёт более общих отношений.

Такая переменная производительность в разных семействах моделей с (предположительно) правдоподобными механизмами обучения предполагает, что люди представляют множество форм лингвистического распределения знаний в семантической памяти или используют множество механизмов для гибкого доступа к таким знаниям для обработки семантической информации в соответствии с когнитивными требованиями задачи.

Трансформеры, однако, наименее правдоподобны в вопросе механизмов обучения, поскольку в дополнение к обучению посредством обратного распространения и, в некоторых случаях, с помощью обратной связи с человеком во время тонкой настройки (например, GPT) - они имеют дополнительную проблему, заключающуюся в том, что являются «черным ящиком» с точки зрения обработки. То есть, хотя их выходные данные, по-видимому, имитируют поведение человека в некоторых когнитивных задачах, их высокая сложность (т.е. от миллионов до триллионов настроек параметров) означает, что то, как и почему они работают, остаётся непрозрачным для пользователя. В результате, хотя модели-трансформеры могут работать на человеческом уровне в таких сложных задачах, как понимание метафор и вербальные аналогии, даже самим разработчикам неясно, какие обоснованные выводы можно сделать о человеческом познании из результатов их работы.

Ещё один критерий когнитивной достоверности связан с размером корпуса, используемого для обучения. При наличии огромного количества текста, доступного в Интернете, очень легко позволить языковым моделям изучать распределительные отношения между миллиардами или триллионами слов. Однако, если модель может аппроксимировать поведение человека, используя только корпус данных, который во много раз больше - даже на порядки больше - чем накопленный за всю жизнь языковой опыт человека, то это неправдоподобная модель того, как лингвистические знания распределяются в человеческом сознании. Хотя люди приобретают значительный языковой опыт благодаря разговорной речи и чтению, как в плане общения, так и в плане использования средств массовой информации (например, просмотра телепередач и фильмов), самый быстрый способ приобрести языковой опыт - это чтение письменных текстов. Например, за целый день социального взаимодействия накапливается около 32 000 слов, в то время как типичный грамотный взрослый человек может усвоить такое же количество слов за пару часов чтения.

Однако некоторые программисты ограничивают обучающий корпус когнитивно допустимыми размерами. Кроме того, использование высококачественного корпуса (т.е. таких, в которых присутствует небольшое количество опечаток и репрезентативный контент) также важно для поддержания высокой производительности. Модели прогнозирования работают лучше при размерах корпуса, превышающих возможности человеческого языкового опыта, но все ещё успешно справляются в допустимых пределах, особенно с парадигматическими задачами. Подавляющее большинство работ с использованием трансформаторных моделей основано на обучающих данных, которые намного превосходят языковой опыт человека, что в сочетании с их неправдоподобной архитектурой затрудняет получение обоснованных выводов о когнитивных способностях человека на основе их успехов и неудач в выполнении когнитивных задач. Недавние усилия были направлены на то, чтобы приблизить языковой опыт детей, ограничив учебный корпус 100 миллионами слов, что в целом обеспечивает хорошие результаты в отношении семантического сходства (т.е. парадигматической задачи).

Тем не менее, существуют убедительные доказательства того, что языковые модели (если не обязательно модели-трансформеры) эффективно справляются с когнитивными задачами, когда они ограничены языковым опытом взрослого человека. Это говорит о том, что для усвоения семантической информации лингвистического распределения знаний не требуется большого количества текста.

Наконец, один из наиболее важных критериев правдоподобия моделей связан с представлением значения (т.е. концептуальными или семантическими репрезентациями). Алгоритмы для каждого языка, очевидно, основаны на понятиях, в которых значение данного слова эффективно представлено в терминах других слов. Но порой такие замкнутые определения смысла несостоятельны. Слова не могут получить своё значение исключительно через ассоциации друг с другом в автономной системе, но вместо этого должны быть связаны со своими аналогами в физическом мире (пример слова «ключ» в русском языке). У нас, людей, нет проблемы с привязкой к символам, потому что значение слов основано не только на языке, но и на нашем опыте восприятия окружающего мира и взаимодействия с ним. Отсюда следует, что нельзя ожидать, что программа будет учитывать все значения. Поэтому информация, которую собирает ИИ, в лучшем случае является частичной реализацией того, как люди представляют и обрабатывают семантику. Если языковая модель нацелена на учёт всей семантической обработки в задаче, то она не является правдоподобным описанием того, как люди выполняют эту задачу.

Многие реализации искусственного интеллекта, которые недавно захватили общественное воображение, такие как ChatGPT, когнитивно неправдоподобны по многим причинам, что не должно вызывать удивления, поскольку они не предназначены для использования в качестве когнитивных моделей. Игнорирование когнитивной достоверности - это законный подход в исследованиях чистого ИИ, который заинтересован только в улучшении производительности языковой модели для разработки более совершенного инструмента (например, лучшего чат-бота, лучшего текстового классификатора, лучшего многоязычного переводчика).

Однако, если позаботиться о создании языковых моделей, которые максимально приближены к человеческим ограничениям в обучении и представлении, то они могут стать мощным инструментом для понимания природы и масштабов того, как язык формирует семантические знания. Результаты, полученные на их основе, свидетельствуют о том, что знания о лингвистическом распределении повышают надёжность обучения, представления и обработки информации.