# Веред Шварц: «Языковые модели склонны гиперболизировать сенсационные исходы»

Источник: https://www.youtube.com/watch?v=uZDIL0665XM
Канал: The TWIML AI Podcast
Опубликовано: 23.03.2021

---

Как научить искусственный интеллект понимать очевидные для человека вещи и почему современные языковые модели остаются хрупкими без базовых представлений о мире? В рамках подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсудил эти вопросы с исследователем Веред Шварц (Vered Shwartz). В центре дискуссии — проблема здравого смысла в обработке естественного языка (NLP), феномен «репортаторского сдвига» и перспективные методы интеграции символических баз знаний с нейросетями.

## 🎓 От баз данных к нейросетям: исследовательский путь Веред Шварц
[[JUMP:0:14]]

Веред Шварц начала свой путь в области обработки естественного языка (NLP) на последнем курсе бакалавриата, посетив два профильных курса. В дальнейшем академический обмен в Румынии и работа в лаборатории NLP в Израиле окончательно определили её выбор в пользу науки. Её докторская диссертация была посвящена лексической семантике и извлечению лексических логических выводов (lexical inferences).

В рамках своей работы Шварц исследовала, как одни слова подразумевают другие, включая синонимы (например, *elevator* и *lift*) и гиперонимы (*cat* и *animal*). Также она занималась интерпретацией скрытых смыслов в составных существительных: например, почему *olive oil* — это масло из оливок, а *baby oil* — масло, используемое для младенцев.

Эволюция подходов Шварц отражает новейшую историю развития индустрии NLP:

* **Использование баз знаний:** В своей первой научной работе Шварц не применяла нейросети, поскольку исследование вышло примерно во время публикации алгоритма Word2Vec. Она опиралась на структуры Wikidata и DBpedia. Например, логический вывод о том, что Леди Гага — человек, строился на основе связей в графе: «Леди Гага -> профессия: певица -> экземпляр класса: человек».

* **Супервизорное обучение нейросетей:** Позже Шварц перешла к кодированию текстовых паттернов с помощью нейросетей для автоматического определения семантических отношений на основе ранних работ 90-х годов (например, интерпретация конструкций «кошки и другие животные»).

* **Неконтролируемое обучение:** Столкнувшись с тем, что супервизорные модели демонстрируют высокую хрупкость и просто запоминают распределение обучающей выборки, Шварц сместила фокус на методы обучения без учителя (unsupervised) и самообучения (self-supervised).

## 🧠 Проблема здравого смысла и модель Self-Talk
[[JUMP:06:59]]

Работая в Институте искусственного интеллекта Аллена (AI2) и Университете Вашингтона, Веред Шварц сосредоточилась на обучении машин здравому смыслу (common sense reasoning) в контексте естественного языка. По мнению исследовательской группы, наличие базовых практических знаний позволяет моделям лучше ориентироваться в незнакомых ситуациях, подражая поведению людей.

Шварц разделяет здравый смысл на несколько категорий:

* **Социальный здравый смысл:** Зависит от конкретной культуры и традиций.

* **Физический здравый смысл:** Носит глобальный характер (например, понимание того, что если стеклянный стакан упадет на пол, он разобьется).

* **Временной здравый смысл:** Касается типичной продолжительности и последовательности повседневных событий.

Для проверки этих навыков часто используется тест Winograd Schema Challenge, требующий разрешения местоимений. В предложении «Детям нужно есть больше овощей, потому что они полезны» слово «они» синтаксически может относиться и к детям, и к овощам, но человеческий здравый смысл безошибочно выбирает овощи. Стандартные современные модели оценивают правдоподобность таких подстановок с помощью предсказательной силы языковой модели.

### Механизм внутренней дискуссии

Для улучшения этого процесса команда Шварц разработала модель под названием **Self-Talk**. Вместо того чтобы сразу принимать решение, ИИ генерирует уточняющие вопросы к тексту и сам же на них отвечает, эксплицируя фоновое знание. Например, модель может спросить: «Какова цель овощей?» и ответить: «Овощи делают человека здоровее». На основе полученных фактов система принимает итоговое решение в тесте.

В среднем для одного фрагмента текста Self-Talk генерирует порядка 15–20 вопросов, используя заготовленные префиксы (например, «Что такое определение...»). Как отмечает Шварц, авторы намеренно ограничили генерацию темами определений и целей, поскольку современные языковые модели всё еще плохо справляются с автоматическим установлением глубоких причинно-следственных связей.

## 📊 Парадоксы человеческой оценки и выбор моделей
[[JUMP:15:05]]

Применение фреймворка Self-Talk позволило улучшить показатели точности на большинстве тестовых задач. Сгенерированные моделью тексты оказались грамматически корректными, релевантными контексту и в основном фактологически точными. Однако исследователи столкнулись с неожиданной аномалией при привлечении людей к оценке результатов.

В случаях, когда базовая модель ошибалась, но после добавления сгенерированных вопросов и ответов Self-Talk выдавала верный результат, люди-эксперты признавали эти сгенерированные знания полезными лишь в 40% случаев. По мнению Шварц, этот разрыв указывает на когнитивную особенность человека: люди склонны считать очевидные факты (например, «люди хотят быть здоровыми») банальными и полагают, что ИИ и так ими владеет, хотя для машины экспликация этого знания критически важна.

В экспериментах тестировались различные архитектуры, включая GPT, XLNet и линейку GPT-2 разного объема. Наилучшие результаты показала модель GPT-2, причем, как подтверждает исследовательница, более крупные модели в целом демонстрируют лучшие способности к извлечению и запоминанию фактов из обучающего корпуса.

## 📺 Феномен «репортаторского сдвига» и его последствия
[[JUMP:20:34]]

Главным препятствием для извлечения здравого смысла из текстов остается так называемый «репортаторского сдвиг» (reporting bias). Как объясняет Шварц, люди в повседневной речи и прессе склонны описывать необычные, экстраординарные события, замалчивая очевидные вещи. В качестве примера она приводит научную работу 2013 года, авторы которой подсчитали частоту упоминаний слов в корпусе текстов и пришли к парадоксальному выводу: если судить строго по текстам, люди в мире гораздо чаще убивают друг друга, чем дышат.

Языковые модели частично преодолевают этот барьер за счет агрегации контекстов, но у них проявляется обратная сторона медали — они сильно гиперболизируют сенсационные исходы.

> **Пример из исследования:** На невинную фразу-затравку «Мужчина включил водопроводный кран» модель GPT-2 выдала продолжение: «...и повсюду брызнула кровь мужчины».

По словам Шварц, такое поведение напрямую связано с характером обучающей выборки. Модели, обученные на веб-страницах, подвержены влиянию новостных архивов, где всегда доминируют происшествия («кто-то обязательно попадает в больницу»). Модели, обученные сугубо на Википедии, также имеют специфические искажения: например, модель BERT оценивает смерть как крайне высоковероятное событие для человека, поскольку большинство статей в Википедии написаны об исторических личностях, которые уже скончались.

## ⚡ Проблема формулировок и метрики правдоподобности
[[JUMP:27:47]]

Серьезным вызовом для разработчиков остается высокая чувствительность нейросетей к формулировке подсказки (prompt sensitivity). Шварц утверждает, что незначительное изменение фразы может кардинально изменить выдаваемые моделью вероятности ответов. Процесс подбора идеального промпта до сих пор во многом напоминает метод проб и ошибок.

Для преодоления этой проблемы Шварц выделяет два недавних исследования коллег:

1.  **Подход CMU (Университет Карнеги — Меллона):** Метод автоматической генерации множества парафраз одного и того же промпта с последующей агрегацией полученных результатов, что повышает стабильность ответов.

2.  **Подход UC Irvine (Университет Калифорнии в Ирвайне):** Автоматическое добавление специфических триггерных слов в промпт, максимизирующих вероятность генерации правильного токена.

### Недостатки стандартных метрик

Другая фундаментальная математическая проблема заключается в отсутствии точной метрики для оценки правдоподобности (plausibility) утверждений в реальном мире. Сегодня инженеры используют суррогатный показатель — условную вероятность генерации слов самой моделью, рассчитываемую через энтропию. Однако эта метрика несовершенна и зависит от лингвистических параметров, а не от законов физики:

* **Длина фразы:** Длинные и короткие утверждения ранжируются некорректно, даже несмотря на стандартное деление на количество слов.

* **Токенизация редких слов:** Поскольку современные модели работают на уровне субтокенов (частей слов), редкое и длинное слово (например, *velociraptor*) разбивается на несколько частей. При генерации третьей части слова модель испытывает минимальное «удивление» (low surprisal), поскольку контекст уже предопределен, что искусственно искажает итоговый балл правдоподобности всей фразы.

## 🌐 Мультимодальность и будущее гибридных систем ИИ
[[JUMP:39:56]]

В качестве возможных путей решения проблемы здравого смысла Шварц рассматривает два направления: мультимодальное обучение и интеграцию символических баз знаний.

Обучение на альтернативных модальностях (например, на изображениях и видео) способно восполнить пробелы, отсутствующие в текстах. Веред Шварц приводит пример с групповой школьной фотографией: изучив множество таких снимков, ИИ может усвоить эмпирическое правило — дети в первом ряду обычно сидят, а в последнем стоят. Такое правило вряд ли когда-либо будет напрямую зафиксировано в текстовых массивах. Впрочем, мультимодальность несет в себе новые риски репортаторского сдвига: обучаясь по художественным фильмам, ИИ может решить, что люди в реальной жизни всегда вешают телефонную трубку, не прощаясь.

Наиболее перспективным подходом Шварц считает гибридные системы, объединяющие гибкость нейросетей со строгостью структурированных баз данных. Примером успешного внедрения такой концепции служит модель **Comet**, разработанная командой ИИ-института Аллена.

В рамках проекта Comet исследователи fine-tune-или модель GPT на краудсорсинговой базе знаний **Atomic**, которая содержит триплеты повседневных событий и их контекстов. Например, для события «человек заводит кошку» база данных фиксирует предпосылки («человек был одинок») и необходимые действия («посетил приют для животных»). По мнению Веред Шварц, синергия символического ИИ и языковых моделей позволяет успешно генерировать глубокие логические выводы для ситуаций, которые нейросеть никогда не встречала в процессе базового обучения.