Веред Шварц: «Языковые модели склонны гиперболизировать сенсационные исходы»

Как научить искусственный интеллект понимать очевидные для человека вещи и почему современные языковые модели остаются хрупкими без базовых представлений о мире? В рамках подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсудил эти вопросы с исследователем Веред Шварц (Vered Shwartz). В центре дискуссии — проблема здравого смысла в обработке естественного языка (NLP), феномен «репортаторского сдвига» и перспективные методы интеграции символических баз знаний с нейросетями.

🎓 От баз данных к нейросетям: исследовательский путь Веред Шварц 0:14

Веред Шварц начала свой путь в области обработки естественного языка (NLP) на последнем курсе бакалавриата, посетив два профильных курса. В дальнейшем академический обмен в Румынии и работа в лаборатории NLP в Израиле окончательно определили её выбор в пользу науки. Её докторская диссертация была посвящена лексической семантике и извлечению лексических логических выводов (lexical inferences).

В рамках своей работы Шварц исследовала, как одни слова подразумевают другие, включая синонимы (например, elevator и lift) и гиперонимы (cat и animal). Также она занималась интерпретацией скрытых смыслов в составных существительных: например, почему olive oil — это масло из оливок, а baby oil — масло, используемое для младенцев.

Эволюция подходов Шварц отражает новейшую историю развития индустрии NLP:

Использование баз знаний: В своей первой научной работе Шварц не применяла нейросети, поскольку исследование вышло примерно во время публикации алгоритма Word2Vec. Она опиралась на структуры Wikidata и DBpedia. Например, логический вывод о том, что Леди Гага — человек, строился на основе связей в графе: «Леди Гага -> профессия: певица -> экземпляр класса: человек».
Супервизорное обучение нейросетей: Позже Шварц перешла к кодированию текстовых паттернов с помощью нейросетей для автоматического определения семантических отношений на основе ранних работ 90-х годов (например, интерпретация конструкций «кошки и другие животные»).
Неконтролируемое обучение: Столкнувшись с тем, что супервизорные модели демонстрируют высокую хрупкость и просто запоминают распределение обучающей выборки, Шварц сместила фокус на методы обучения без учителя (unsupervised) и самообучения (self-supervised).

🧠 Проблема здравого смысла и модель Self-Talk 6:59

Работая в Институте искусственного интеллекта Аллена (AI2) и Университете Вашингтона, Веред Шварц сосредоточилась на обучении машин здравому смыслу (common sense reasoning) в контексте естественного языка. По мнению исследовательской группы, наличие базовых практических знаний позволяет моделям лучше ориентироваться в незнакомых ситуациях, подражая поведению людей.

Шварц разделяет здравый смысл на несколько категорий:

Социальный здравый смысл: Зависит от конкретной культуры и традиций.
Физический здравый смысл: Носит глобальный характер (например, понимание того, что если стеклянный стакан упадет на пол, он разобьется).
Временной здравый смысл: Касается типичной продолжительности и последовательности повседневных событий.

Для проверки этих навыков часто используется тест Winograd Schema Challenge, требующий разрешения местоимений. В предложении «Детям нужно есть больше овощей, потому что они полезны» слово «они» синтаксически может относиться и к детям, и к овощам, но человеческий здравый смысл безошибочно выбирает овощи. Стандартные современные модели оценивают правдоподобность таких подстановок с помощью предсказательной силы языковой модели.

Механизм внутренней дискуссии

Для улучшения этого процесса команда Шварц разработала модель под названием Self-Talk. Вместо того чтобы сразу принимать решение, ИИ генерирует уточняющие вопросы к тексту и сам же на них отвечает, эксплицируя фоновое знание. Например, модель может спросить: «Какова цель овощей?» и ответить: «Овощи делают человека здоровее». На основе полученных фактов система принимает итоговое решение в тесте.

В среднем для одного фрагмента текста Self-Talk генерирует порядка 15–20 вопросов, используя заготовленные префиксы (например, «Что такое определение...»). Как отмечает Шварц, авторы намеренно ограничили генерацию темами определений и целей, поскольку современные языковые модели всё еще плохо справляются с автоматическим установлением глубоких причинно-следственных связей.

📊 Парадоксы человеческой оценки и выбор моделей 15:05

Применение фреймворка Self-Talk позволило улучшить показатели точности на большинстве тестовых задач. Сгенерированные моделью тексты оказались грамматически корректными, релевантными контексту и в основном фактологически точными. Однако исследователи столкнулись с неожиданной аномалией при привлечении людей к оценке результатов.

В случаях, когда базовая модель ошибалась, но после добавления сгенерированных вопросов и ответов Self-Talk выдавала верный результат, люди-эксперты признавали эти сгенерированные знания полезными лишь в 40% случаев. По мнению Шварц, этот разрыв указывает на когнитивную особенность человека: люди склонны считать очевидные факты (например, «люди хотят быть здоровыми») банальными и полагают, что ИИ и так ими владеет, хотя для машины экспликация этого знания критически важна.

В экспериментах тестировались различные архитектуры, включая GPT, XLNet и линейку GPT-2 разного объема. Наилучшие результаты показала модель GPT-2, причем, как подтверждает исследовательница, более крупные модели в целом демонстрируют лучшие способности к извлечению и запоминанию фактов из обучающего корпуса.

📺 Феномен «репортаторского сдвига» и его последствия 20:34

Главным препятствием для извлечения здравого смысла из текстов остается так называемый «репортаторского сдвиг» (reporting bias). Как объясняет Шварц, люди в повседневной речи и прессе склонны описывать необычные, экстраординарные события, замалчивая очевидные вещи. В качестве примера она приводит научную работу 2013 года, авторы которой подсчитали частоту упоминаний слов в корпусе текстов и пришли к парадоксальному выводу: если судить строго по текстам, люди в мире гораздо чаще убивают друг друга, чем дышат.

Языковые модели частично преодолевают этот барьер за счет агрегации контекстов, но у них проявляется обратная сторона медали — они сильно гиперболизируют сенсационные исходы.

Пример из исследования: На невинную фразу-затравку «Мужчина включил водопроводный кран» модель GPT-2 выдала продолжение: «...и повсюду брызнула кровь мужчины».

По словам Шварц, такое поведение напрямую связано с характером обучающей выборки. Модели, обученные на веб-страницах, подвержены влиянию новостных архивов, где всегда доминируют происшествия («кто-то обязательно попадает в больницу»). Модели, обученные сугубо на Википедии, также имеют специфические искажения: например, модель BERT оценивает смерть как крайне высоковероятное событие для человека, поскольку большинство статей в Википедии написаны об исторических личностях, которые уже скончались.

⚡ Проблема формулировок и метрики правдоподобности 27:47

Серьезным вызовом для разработчиков остается высокая чувствительность нейросетей к формулировке подсказки (prompt sensitivity). Шварц утверждает, что незначительное изменение фразы может кардинально изменить выдаваемые моделью вероятности ответов. Процесс подбора идеального промпта до сих пор во многом напоминает метод проб и ошибок.

Для преодоления этой проблемы Шварц выделяет два недавних исследования коллег:

Подход CMU (Университет Карнеги — Меллона): Метод автоматической генерации множества парафраз одного и того же промпта с последующей агрегацией полученных результатов, что повышает стабильность ответов.
Подход UC Irvine (Университет Калифорнии в Ирвайне): Автоматическое добавление специфических триггерных слов в промпт, максимизирующих вероятность генерации правильного токена.

Недостатки стандартных метрик

Другая фундаментальная математическая проблема заключается в отсутствии точной метрики для оценки правдоподобности (plausibility) утверждений в реальном мире. Сегодня инженеры используют суррогатный показатель — условную вероятность генерации слов самой моделью, рассчитываемую через энтропию. Однако эта метрика несовершенна и зависит от лингвистических параметров, а не от законов физики:

Длина фразы: Длинные и короткие утверждения ранжируются некорректно, даже несмотря на стандартное деление на количество слов.
Токенизация редких слов: Поскольку современные модели работают на уровне субтокенов (частей слов), редкое и длинное слово (например, velociraptor) разбивается на несколько частей. При генерации третьей части слова модель испытывает минимальное «удивление» (low surprisal), поскольку контекст уже предопределен, что искусственно искажает итоговый балл правдоподобности всей фразы.

🌐 Мультимодальность и будущее гибридных систем ИИ 39:56

В качестве возможных путей решения проблемы здравого смысла Шварц рассматривает два направления: мультимодальное обучение и интеграцию символических баз знаний.

Обучение на альтернативных модальностях (например, на изображениях и видео) способно восполнить пробелы, отсутствующие в текстах. Веред Шварц приводит пример с групповой школьной фотографией: изучив множество таких снимков, ИИ может усвоить эмпирическое правило — дети в первом ряду обычно сидят, а в последнем стоят. Такое правило вряд ли когда-либо будет напрямую зафиксировано в текстовых массивах. Впрочем, мультимодальность несет в себе новые риски репортаторского сдвига: обучаясь по художественным фильмам, ИИ может решить, что люди в реальной жизни всегда вешают телефонную трубку, не прощаясь.

Наиболее перспективным подходом Шварц считает гибридные системы, объединяющие гибкость нейросетей со строгостью структурированных баз данных. Примером успешного внедрения такой концепции служит модель Comet, разработанная командой ИИ-института Аллена.

В рамках проекта Comet исследователи fine-tune-или модель GPT на краудсорсинговой базе знаний Atomic, которая содержит триплеты повседневных событий и их контекстов. Например, для события «человек заводит кошку» база данных фиксирует предпосылки («человек был одинок») и необходимые действия («посетил приют для животных»). По мнению Веред Шварц, синергия символического ИИ и языковых моделей позволяет успешно генерировать глубокие логические выводы для ситуаций, которые нейросеть никогда не встречала в процессе базового обучения.