Лора Руис о коммуникации ИИ: «Модели не способны общаться в режиме zero-shot»

На прошедшей конференции NeurIPS в Новом Орлеане ведущий подкаста Machine Learning Street Talk обсудил с исследовательницей искусственного интеллекта Лорой Руис (Laura Ruis) её новую научную работу «Большие языковые модели не являются zero-shot коммуникаторами». В центре внимания оказалась способность современных нейросетей понимать прагматику человеческой речи — в частности, распознавать намеки и скрытые смыслы, которые люди считывают мгновенно благодаря общему жизненному опыту.

🗣️ Что такое прагматика и почему LLM — плохие собеседники 0:00

В лингвистике разделяют синтаксис, семантику и прагматику. Если синтаксис и семантика отвечают за структуру предложений и буквальное значение слов (например, понимание того, как соотносятся фразы «Джон любит Мэри» и «Мэри любит Джона»), то прагматика уходит далеко за пределы текстового контекста. Она изучает, как на смысл высказывания влияют наши фоновые знания о мире и общий социальный опыт.

Одним из ключевых понятий прагматики является речевая импликатура — ситуация, когда истинное намерение говорящего не выражено прямо, но легко реконструируется слушателем.

В качестве классических примеров импликатур Лора Руис приводит следующие диалоги:

Вопрос: «Ты придешь на мою вечеринку в пятницу?» — Ответ: «Мне нужно работать». Любой человек поймет, что этот ответ означает «нет», хотя само слово не было произнесено.
Вопрос: «Ты оставил отпечатки пальцев?» — Ответ: «Я был в перчатках». Из базовых знаний о физическом мире мы мгновенно выводим логическое следствие — отпечатков нет.

По мнению Лоры Руис, для того чтобы считаться полноценным участником коммуникации, субъект должен уметь извлекать смысл не только из явной семантики, но и из разделяемого с собеседником опыта. Проведенное исследователями тестирование показало, что большие языковые модели справляются с этой задачей крайне плохо.

📊 Эксперименты и цифры: разрыв между ИИ и человеком 5:04

В рамках исследования авторы разделили тестируемые модели на две основные группы:

Базовые модели (такие как OPT и Bloom), обученные исключительно на задаче предсказания следующего слова.
Инструктивные модели (Flan-T5, T0, а также семейство DaVinci от OpenAI), прошедшие дополнительную настройку.

Эксперимент в режиме zero-shot (без предварительных примеров в промпте) строился следующим образом: модели подавался текст диалога с инструкцией определить, означает ли завуалированный ответ «да» или «но». Результаты базовых моделей оказались неутешительными — их точность превысила случайный выбор всего на 10%.

Инструктивные модели от OpenAI продемонстрировали более многообещающие результаты, достигнув точности около 70%. Тем не менее, Лора Руис подчеркивает, что этот показатель все еще далек от человеческого уровня. Даже новейшая на тот момент модель Chat GPT от OpenAI в некоторых сценариях демонстрировала явные сбои прагматики. На вопрос, сможет ли персонаж прийти на вечеринку, если ему нужно работать, система ответила, что «информации недостаточно, так как все зависит от его рабочего графика».

Чтобы проверить, можно ли преодолеть этот барьер, исследователи применили метод контекстного обучения (few-shot в контексте). Модели DaVinci в промпт добавлялось несколько решенных примеров прагматических задач. По словам Лоры Руис, это существенно улучшило показатели моделей OpenAI — их точность поднялась до 80% при использовании примерно пяти примеров. Однако дальнейшее увеличение количества примеров в контексте приводило к выходу на плато и не приносило роста результатов, оставляя значительный разрыв между возможностями ИИ и человека.

🧠 Механизм контекстного обучения: настройка весов или симуляция? 10:43

Тот факт, что добавление пяти примеров значительно улучшает прагматические способности модели, но дальнейшее их увеличение не дает эффекта, заставляет задуматься о внутренней природе контекстного обучения. Лора Руис делится интуитивным предположением: промпт с примерами не обучает модель новым правилам прагматики на лету, а выполняет роль своеобразного «прайминга». Он как бы направляет модель в определенную область её весового пространства, активируя нужные паттерны для решения конкретной задачи.

В пользу этой гипотезы говорят сторонние исследования, где ученые намеренно перемешивали или делали случайными метки ответов («да»/«нет») в примерах context-learning, но модель все равно продолжала выдавать адекватные результаты.

Существует и другой взгляд на эту проблему, почерпнутый исследовательницей из дискуссий на платформе LessWrong: языковые модели — это универсальные симуляторы. Поскольку в обучающей выборке интернета содержатся тексты самых разных авторов и агентов, промпт помогает модели понять, какую именно сущность или траекторию ей необходимо симулировать в данный момент.

В научном сообществе до сих пор нет консенсуса относительно того, обладают ли нейросети истинным пониманием. Лора Руис упоминает позицию своей коллеги и соавтора Стеллы Бидерман (Stella Biderman), которая считает, что антропоморфизация моделей — это категориальная ошибка. По мнению Бидерман, приписывать моделям обладание «знанием» в человеческом смысле некорректно. Известные ученые также расходятся во мнениях: Эмили Бендер (Emily Bender) называет LLM «стохастическими попугаями», Гари Маркус (Gary Marcus) — «болтунами» (bloviators), в то время как другие видят в них зарождающееся эмерджентное мышление. Сама гостья подкаста, ссылаясь на работу Эндрю Лампинена (Andrew Lampinen), склонна считать способность к символическому мышлению не бинарным свойством («есть» или «нет»), а непрерывной шкалой, на которой современные LLM продвинулись уже достаточно далеко.

🛠️ Обучение с подкреплением (RLHF) и преодоление контекстных ловушек 19:47

Главным драйвером развития прагматических навыков у моделей OpenAI стало обучение с подкреплением на основе отзывов людей (RLHF). Этот метод позволяет выровнять (align) базовую модель, обученную простому предсказанию следующего слова, с реальными намерениями пользователей. В процессе RLHF люди оценивают и ранжируют различные варианты ответов нейросети, на основе чего обучается модель вознаграждения (reward model).

Лора Руис отмечает, что при составлении инструкций для разметчиков людей прямо просят оценивать, насколько модель поняла скрытое намерение автора промпта, что очень близко к механизму импликатур. Именно поэтому модели, прошедшие RLHF, показывают качественный скачок в общении.

Однако детальный анализ датасета выявил важную закономерность: модели показывают высокие результаты в основном на простых, «конвенциональных» импликатурах. Примером служит фраза «Пришли некоторые люди», которая по умолчанию предполагает, что пришли не все. Но как только дело доходит до сложных, глубоко контекстных импликатур, качество резко падает.

В качестве примера сложного контекста приводится диалог:

«Ты придешь сегодня на вечеринку OpenAI?» — «У меня пищевое отравление».

Для интерпретации этого ответа модели требуется выстроить сложную цепочку причинно-следственных связей о физическом состоянии человека. На таких задачах даже у лучших моделей фиксируется как минимум 9-процентный разрыв с человеческим уровнем, а модели вроде Flan-T5 полностью проваливают тест.

⚖️ Проблема оценки и будущее языковых моделей 24:23

Обсуждая ограничения существующих тестов, собеседники сходятся во мнении, что оценка систем ИИ напоминает притчу о слепых мудрецах и слоне: создавая фиксированные метрики, исследователи неизбежно упускают большую часть сложной реальности. Лора Руис утверждает, что оценка (evaluation) — это в принципе самая сложная и важная проблема в обработке естественного языка (NLP) на сегодняшний день. Создание одного успешного бенчмарка не решает проблему, поскольку оптимизация модели под конкретный тест может исключить другие важные аспекты понимания.

По мнению исследовательницы, для создания по-настоящему адаптивных систем (zero-shot communicators) науке необходимо выйти за рамки работы исключительно с текстом. Человеческая прагматика развивалась под воздействием социальных давлений и необходимости интерактивного взаимодействия в реальном физическом мире.

В качестве перспективного направления своей работы Лора Руис видит создание симуляций в среде обучения с подкреплением (RL), где агенты будут поставлены в условия жестких «прагматических давлений», что должно стимулировать эмерджентное появление навыков истинной коммуникации.