Марк Ридл: «Современные языковые модели — это разумные болтуны»

В новом выпуске подкаста The TWIML AI Podcast профессор Технологического института Джорджии Марк Ридл (Mark Riedl) делится своим уникальным взглядом на пересечение искусственного интеллекта, повествования и человеческого опыта. Исследователь объясняет, почему современные большие языковые модели остаются лишь «разумными болтунами», и как интеграция логического планирования, модели психического человека и здравого смысла позволяет создавать по-настоящему связные нарративы. Рассматривая прикладные аспекты своих изысканий, Ридл демонстрирует, как технологии автоматического сочинения историй могут очеловечить объяснительный ИИ и заложить основу для безопасного взаимодействия человека и роботов будущего.

🎮 От Tron до нарративных систем: путь Марка Ридла в ИИ 0:00

Путь Марка Ридла в сферу искусственного интеллекта начался с детского увлечения кинематографом. Как в шутку вспоминает сам профессор, поворотной точкой для него стал просмотр культового фантастического фильма «Трон». С тех пор он буквально загорелся идеей «попасть в игровую сетку» (gaming grid), а его дальнейшая карьера превратилась в череду счастливых случайностей. На вопрос ведущего Сэма Чаррингтона о том, как гость относится к перезапуску фильма, Ридл с иронией замечает, что новая версия вышла неплохой, хотя изменение дизайна световых мотоциклов его слегка расстроило.

В академический мир искусственного интеллекта и машинного обучения Марк Ридл пришел через индустрию человеко-компьютерного взаимодействия (HCI). В студенческие годы он прослушал огромное количество курсов по психологии и человеческим факторам, еще даже не подозревая о существовании ИИ. Однако в тот день, когда он впервые попал на профильное занятие по искусственному интеллекту, он понял, что бесповоротно «попался на крючок». Вскоре его пригласили поучаствовать в исследовательском проекте, посвященном применению ИИ в компьютерных играх, и именно тогда все разрозненные элементы его научных интересов сложились в единую картину.

В те годы — Ридл предпочитает не уточнять, сколько именно лет назад это было, чтобы не выдавать свой возраст — ключевым направлением исследований его команды выступали адаптивные игры. Ученые пытались понять, способны ли виртуальные миры динамически перестраиваться под текущие действия, желания и интересы конкретного пользователя. Данная концепция получила название интерактивного повествования (interactive storytelling). Её суть заключалась в отказе от линейного прохождения игры с жестко зафиксированными сюжетными точками. Пользователь получал свободу выбора: например, он мог сознательно встать на сторону «плохих парней», и в этом случае алгоритм должен был на ходу менять сюжетные твисты, генерировать новые квесты и добавлять неожиданные элементы.

Со временем исследовательская группа Ридла сместила фокус от генерации квестов к полноценному созданию историй. В определенный момент они полностью отбросили графическую составляющую игр и задались фундаментальным вопросом: может ли компьютер написать полноценный роман, который люди захотят читать? Этому направлению Марк Ридл посвятил все последующие годы своей научной деятельности.

🧠 Человекоориентированный ИИ и магия шести слов 3:09

Объясняя суть своей обширной исследовательской программы, Марк Ридл шутит, что его работа — это самый простой способ заниматься искусственным интеллектом и одновременно развлекаться, ведь речь идет об играх и историях. Если же формулировать мысль более строго, то вся его деятельность укладывается в рамки концепции человекоориентированного искусственного интеллекта (Human-Centered AI). Под этим термином разные ученые понимают разные вещи, но для Ридла это означает интеграцию человека непосредственно внутрь алгоритмических процессов, а не выталкивание его на обочину технологий.

Основная цель человекоориентированного ИИ заключается в создании систем, которые обогащают и расширяют человеческий опыт. Индустрия развлечений и автоматическое повествование — лишь малая часть этого процесса. Сюда же относится проектирование интеллектуальных систем объяснения, помогающих специалистам эффективнее выполнять свою работу. Однако, по мнению Ридла, если мы хотим качественно улучшить жизнь людей с помощью ИИ, нам необходимо развернуть уравнение и спросить себя: должен ли сам ИИ глубоко понимать человеческую природу?

Профессор подчеркивает, что компьютерные алгоритмы и ментальные процессы в голове человека принципиально чужды друг другу, поскольку они мыслят в абсолютно разных категориях. Задача исследователей — построить надежный мост между этими двумя «инопланетными разумами». Именно в этой точке пересекаются генерация историй и фундаментальные проблемы ИИ, ведь повествование связывает воедино ключевые когнитивные задачи.

Для человечества сторителлинг — это не просто развлечение, а базис существования. Люди используют истории для:

обучения подрастающих поколений;
профессиональной подготовки и тренингов;
установления эмоционального контакта и доверительных отношений (rapport).

Даже обычный вечерний разговор за семейным ужином о том, как прошел день — это обмен короткими историями. Это богатейшая модальность коммуникации, в которой компьютеры до недавнего времени вообще не участвовали. Машины не понимают наших сюжетов, не осознают, зачем мы их рассказываем, и не умеют отвечать нам тем же языком, даже когда история является наиболее уместной формой общения.

В качестве иллюстрации колоссальной силы нарративного формата Марк Ридл приводит свой любимый микрорассказ из шести слов, который традиционно приписывают Эрнесту Хемингуэю: «Продаются пинетки. Неношеные» (в оригинале транскрипта: baby shoes for sale never worn). Эти шесть слов мгновенно запускают в голове слушателя сложнейшие ментальные процессы и вызывают мощный эмоциональный отклик. Человек сразу начинает домысливать трагический контекст: почему обувь продается, что случилось с ребенком, стоит ли сопереживать героям. Компьютеры же, как утверждает Ридл, совершенно не способны коммуницировать на таком уровне нюансов, и если загрузить в них эту фразу, они не уловят скрытую за ней драму.

🤖 Проблема «разумных болтунов»: почему GPT-3 не умеет рассказывать истории 6:22

Центральный вызов для современных ученых заключается в том, чтобы научить компьютер задумываться о мыслях своего слушателя. Марк Ридл признает, что появление огромных массивов данных и появление таких генераторов текста, как GPT-2 и GPT-3, стало настоящим подарком для индустрии, поскольку они выдают поразительно похожую на человеческую речь. Однако у этих моделей есть критический изъян: по мнению Ридла, они абсолютно не умеют планировать то, что собираются сказать.

В академической среде такие системы часто называют «разумными болтунами» (intelligent babblers) или «вероятностными болтунами». Принцип их работы устроен следующим образом:

Алгоритм анализирует уже написанный массив слов.
На основе чистой статистики вычисляется наиболее правдоподобное следующее слово.
Затем процесс повторяется для второго, третьего и последующих слов.

Такой подход отлично подходит для создания грамматически корректного и поверхностно правдоподобного текста. Но настоящие истории не имеют ничего общего с механической болтовней — у любой хорошей истории всегда есть конкретная цель и главная мысль. Когда человек отвечает на вопрос собеседника, он сначала формулирует в голове финальную точку, к которой хочет прийти, а затем выстраивает цепочку слов и аргументов для достижения этой цели.

Следовательно, генерация историй требует кардинальной смены парадигмы в обработке языка: ИИ должен перестать оглядываться исключительно назад в поисках статистических совпадений. Ему необходимо смотреть в будущее и ежесекундно просчитывать, приближает ли выбранное им следующее слово или предложение общую структуру повествования к намеченной цели.

Вторая сложнейшая задача — это внедрение в ИИ так называемой модели психического человека (Theory of Mind). Робот должен выбирать такие формулировки и речевые обороты, которые окажут строго определенный когнитивный и эмоциональный эффект на читателя. Возвращаясь к примеру с детскими пинетками, Ридл отмечает, что эта история может не зацепить человека, у которого нет детей, но окажется невероятно сильной для молодых родителей. ИИ обязан понимать эти различия в восприятии аудитории.

🧱 Нейросимволический подход: как вернуть контроль над текстом 8:51

Процесс планирования в ИИ активно изучается в рамках других прикладных дисциплин — например, в логистике, управлении роботизированными складами или в обучении с подкреплением. Марк Ридл с удовольствием черпает вдохновение и технические методы из этих смежных областей, поскольку генерация сюжета, по его мнению, во многом похожа на классические логистические задачи. Разница лишь в том, что вместо распределения посылок по адресам алгоритм оперирует сказочными персонажами и сюжетными линиями.

Однако на стыке языка и планирования возникают специфические барьеры. Если транспортной компании UPS для построения маршрутов, возможно, и не требуется встроенный «здравый смысл», то для написания адекватной истории без него не обойтись. В начале своего пути группа Ридла использовала исключительно символические системы планирования, основанные на жестких правилах. Они давали неплохой результат, но быстро упирались в технологический тупик из-за необходимости вручную прописывать сотни логических символов.

Тогда ученые решили объединить старые наработки с современными обучаемыми моделями машинного обучения, чтобы ИИ мог самостоятельно извлекать правила из прочтения тысяч готовых книг. Процесс создания идеального автора Ридл описывает как последовательное послойное наращивание технологий: сначала собираются текстовые данные, затем поверх них надстраивается модель психического человека, далее внедряется логика здравого смысла, и так до бесконечности.

Примером успешного внедрения такой многослойной архитектуры стала недавняя работа Лоры Мартин (Laura Martin), бывшей аспирантки Ридла. Её команда обратила внимание на то, что чистые нейросетевые модели регулярно теряют когерентность (связность) текста и внезапно уходят в «странные дебри». Происходит это потому, что нейросети не отслеживают, формируют ли их текущие слова логические мостики с тем, что утверждалось в начале текста.

Чтобы исправить эту проблему, исследователи создали гибридный нейросимволический ИИ:

Нейросетевой слой: отвечает за генерацию плавного, естественного языка.
Символический слой: работает параллельно и переводит генерируемый текст в строгие логические факты.

Оба слоя непрерывно сверяются друг с другом. Как только нейросеть выдает очередное предложение, символический слой проверяет, не противоречит ли новый факт предыдущим и развивает ли он общую тему. Этот символический каркас фактически выступает в роли «модели читателя» (reader model). Он симулирует высокоуровневое семантическое восприятие текста человеком и предугадывает, какие выводы сделает читатель из прочитанного.

В качестве базового инструмента исследователи берут готовые коммерческие модели (вроде GPT-2 или GPT-3), подвергают их точечной донастройке (fine-tuning) и разворачивают над ними свой управляющий слой (control layer). Этот слой действует жестко: если нейросеть начинает бессвязно «болтать», нарушая логику модели читателя, управляющий алгоритм мгновенно отвергает этот вариант и заставляет нейросеть генерировать предложение заново. Эксперименты подтвердили, что такой подход существенно повышает связность текстов, удерживает ИИ в рамках заданной темы гораздо дольше, а люди в ходе тестирования оценивают такие истории как более качественные.

Сам управляющий слой устроен нелинейно. По словам Ридла, он сочетает в себе:

классические эвристики и правила из когнитивистики и литературы по планированию;
вторичные обучаемые ИИ-модели, натренированные предсказывать реакцию людей и обладающие базовыми знаниями о мире.

🎬 Саспенс, киноиндустрия и пределы алгоритмического творчества 16:29

Делясь планами на будущее, Марк Ридл признается, что его главной мечтой является создание системы, способной генерировать по-настоящему напряженные истории, то есть работать с эмоцией саспенса. Саспенс — это сложнейшее когнитивное состояние, которое практически невозможно воспроизвести случайно. Профессор приводит в пример классические фильмы о Джеймсе Бонде: зритель видит, что агент находится в смертельной опасности, его схватили и собираются пытать злодеи, но в самый последний момент Бонд находит изящный выход.

Чтобы вызвать у человека саспенс, алгоритм должен заранее посеять в его сознании мысль о неизбежности негативных последствий, а затем резко выдернуть ковер из-под ног, показав неожиданное спасение. Эмоцию удивления компьютер может смоделировать по чистой случайности, но саспенс требует долгой подготовки и сквозного планирования. Здесь воедино сплетаются моделирование человеческих ожиданий, управление эмоциями и стратегический взгляд вперед.

Сэм Чаррингтон поинтересовался, не пытался ли Ридл продать свои наработки крупным голливудским киностудиям, ведь продюсеры мечтают на ранних этапах предсказывать, станет ли сценарий кассовым хитом. Гость выразил глубокий скепсис в отношении перспектив предсказательного моделирования в Голливуде. Безусловно, как считает Ридл, кто-нибудь обязательно найдет способ заработать на этом миллиард долларов, но к качеству самих фильмов это не имеет отношения.

Проблема заключается в том, что любое машинное обучение — это всего лишь поиск паттернов в прошлом. Прогностические модели отлично находят шаблоны, которые уже срабатывали ранее, но они принципиально бессильны, если нужно оценить нечто радикально новое и авангардное. Кроме того, Ридл предлагает реалистично смотреть на текущие возможности технологий: на сегодняшний день ученые счастливы, если ИИ удается связать вместе хотя бы пару абзацев так, чтобы они не потеряли логику и не заставили читателя недоумевать от резкой смены курса.

🎨 Намеренное творчество против случайных озарений 22:29

В рамках изучения феномена креативности Марк Ридл проводит четкую границу между двумя типами творчества в ИИ:

Непреднамеренное творчество (unintentional creativity): базируется на чистой случайности. Поскольку генеративные алгоритмы являются статистическими машинами, они иногда принимают маловероятные математические решения. В результате получается «счастливая случайность» — нечто красивое и неожиданное. Однако этот успех невозможно повторить: при следующем запуске система выдаст банальность, так как генератор случайных чисел выберет другую траекторию.
Намеренное творчество (intentional creativity): присуще человеку и всегда управляется конкретной целью. Человек осознает, что хочет создать объект, отличающийся от всего опыта прошлого, и целенаправленно ищет эти отличия, отсеивая плохие варианты от хороших.

По мнению Ридла, у науки пока нет внятной математической теории намеренного творчества применительно к ИИ. Разработчики научились создавать эффективные практические системы, способные максимизировать условный параметр $X$ или минимизировать параметр $Y$. Но если поставить перед творческим ИИ задачу «максимизировать удовольствие читателя» или «оптимизировать эстетическую ценность картины», математика пасует, ведь эти понятия невозможно описать точной формулой.

В итоге инженеры вынуждены возвращаться к привычному инструментарию и сравнивать результаты с прошлым опытом, обучая ИИ на массивах «красивых» картинок. Однако в данном случае истинным творцом выступает человек, который бережно собрал этот датасет, а вовсе не алгоритм. Как заставить ИИ заявить: «Вы дали мне много красивых портретов, но я изменю их вот в этой странной манере и получу шедевр» — наука не знает. Человеческий мозг способен на это благодаря колоссальному жизненному опыту (lived experience) и уникальным ментальным механизмам, которые мы пока даже не умеем моделировать.

🧹 Объяснительный ИИ: почему вашему пылесосу понадобятся сказки 26:57

Помимо фундаментальных исследований в области чистого сторителлинга, Марк Ридл активно развивает прикладное направление — объяснительный искусственный интеллект (Explainable AI, или XAI). Большинство современных алгоритмов машинного обучения представляют собой непрозрачные «черные ящики». Они принимают эффективные, но абсолютно непонятные для человека решения.

Сейчас под «открытием черного ящика» инженеры обычно понимают глубокий технический аудит нейросети, пытаясь выяснить, какие именно нейроны сработали некорректно. Однако Ридл предлагает подумать об обычных конечных пользователях, которые в будущем купят себе продвинутых домашних роботов, например, умные пылесосы Roomba. Если такой робот посреди ночи совершит странный поступок — переедет хвост любимому коту или разбудит громким звуком младенца — владельцу не понадобятся графики распределения весов нейросети. Ему нужно будет просто получить человеческий ответ на вопрос: «Зачем ты это сделал?».

По мнению Ридла, идеальные объяснения для неспециалистов должны подаваться в формате историй.

Робот должен уметь рассказать короткий связный нарратив, задействуя модель психического человека: «Я поехал в тот угол, потому что зафиксировал там движение, но не учел, что...». Это позволит человеку сопоставить свое видение ситуации с логикой машины, примирить их понимание правильного действия и восстановить доверие к бренду.

В процессе работы над этой темой Ридл и его студенты внезапно осознали, что у них нет четкого понимания того, какое именно объяснение люди считают «хорошим». Им пришлось временно отложить в сторону написание кодов и провести серию масштабных исследований человеческих факторов. Ученые пытались выяснить, чего именно люди подсознательно ждут от мыслящего устройства в своем доме и какие типы объяснений заставляют их доверять технике.

Результаты экспериментов показали, что восприятие объяснений крайне многомерно. Исследователи разделили респондентов на две группы и зафиксировали поразительные различия:

Люди с бэкграундом в компьютерных науках (CS): воспринимали технику прагматично. Для них хорошим объяснением был детальный отчет о том, что именно сломалось в коде, чтобы они могли предотвратить подобный сбой в будущем.
Люди без технического образования: имели совершенно иную ментальную ориентацию. Им было критически важно почувствовать, что внутри устройства происходит какой-то мыслительный процесс. Обычное последовательное повествование робота о своих шагах полностью удовлетворяло их любопытство и делало опыт владения гаджетом гораздо более приятным.

Сейчас команда Ридла накопила достаточно данных, чтобы вернуться к проектированию алгоритмов XAI, понимая, на какие целевые аудитории они должны ориентироваться. Оказалось, что для большинства людей объяснение — это инструмент выстраивания уверенности и психологического комфорта, а не сухой выбор между альтернативами А и Б.

В человеческом обществе истории служат для сближения и выстраивания раппорта. До пандемии ученые на конференциях всегда начинали знакомство с легкой светской беседы (chit-chat): как долетел, откуда прибыл, над чем работаешь. Это не эпические триллеры в стиле Спилберга, а короткие бытовые зарисовки. ИИ-системы будущего должны освоить этот навык, чтобы снимать у людей стресс, располагать их к себе и аккуратно выслушивать ответные истории пользователей, адаптируя под них свое поведение.

Впрочем, Марк Ридл открыто предупреждает о серьезных этических рисках такой технологии. Здесь кроется обоюдоострый меч: существует огромная опасность скатиться в искусственное манипулирование человеческим доверием и скрытое внушение (persuasion), когда робот заставляет пользователя верить себе во вред. Поэтому алгоритмы объяснения должны быть строго лимитированы этическими рамками. В будущем системы XAI будут обязаны не просто выдавать готовый текст, а планировать многоуровневую стратегию объяснения, состоящую из четырех-пяти последовательных реплик, чутко реагируя на меняющиеся знания слушателя.

📚 Хронология исследований и интеграция здравого смысла 39:27

Марк Ридл предпочитает создавать крупные, комплексные ИИ-платформы, поэтому его научные публикации представляют собой последовательную сборку отдельных элементов одной большой мозаики. Хронология ключевых работ его лаборатории выглядит следующим образом:

2017–2018 годы (конференция AAAI): доклад о применении нейросетевых языковых моделей для сочинения историй. Это был ранний, довольно наивный опыт, где использовалось простое статистическое сэмплирование текста до тех пор, пока оператору не надоедало читать результат. Именно эта работа подтолкнула команду к осознанию важности целеполагания.
2018–2019 годы (конференция IJCAI): статья, посвященная целенаправленному повествованию (goal-driven storytelling). Ученые сумели жестко задать финальную точку (например, «герои сыграли свадьбу и жили долго и счастливо») и заставили нейросеть целенаправленно разворачивать сюжет в эту сторону, что увенчалось успехом.
Недавнее время: докторская диссертация Лоры Мартин, заложившая основы нейросимволического подхода и интеграции модели читателя поверх текстового генератора для избежания логических провалов.
Текущий год (конференция AAAI): исследование, посвященное интеграции систем здравого смысла в архитектуру планирования сюжета.

Проблема здравого смысла всегда стояла в сторителлинге на первом месте, ведь человеческий мозг мгновенно считывает любые логические несостыковки. Профессор поясняет: если ИИ описывает банальный поход персонажа в ресторан, но путает хронологию действий местами (например, заставляет героя платить по счету до того, как тот пришел и заказал еду), читатель сразу же теряет доверие к тексту.

Чтобы не тратить годы на ручной сбор гигантских баз данных, команда Ридла решила использовать готовые наработки коллег из Университета Вашингтона — исследовательских групп Еджин Чой (Yejin Choi) и Антуана Босселю (Antoine Bosselut). Они создали специализированные нейросети, способные предсказывать, как обычные люди оценят логику того или иного предложения с точки зрения бытового здравого смысла.

Ридл и его аспиранты внедрили этот внешний сигнал напрямую в свой планировщик. Они протестировали два метода интеграции:

Метод фильтрации: ИИ генерирует предложение, и если оно не проходит проверку на здравый смысл, управляющая система отправляет его в утиль и заставляет нейросеть переделывать фразу.
Метод упреждающего планирования: сигнал здравого смысла используется как маркер человеческих ожиданий. Если персонаж зашел в ресторан, модель здравого смысла подсказывает планировщику, что дальше по логике должно последовать изучение меню, и ИИ заранее закладывает это действие в сюжет.

В завершение беседы Марк Ридл выразил надежду, что алгоритмы, отточенные его командой на историях, со временем будут извлечены из литературного контекста и найдут применение в широких сферах ИИ. В частности, они могут кардинально улучшить качество систем человеко-машинного диалога и помочь голосовым ассистентам вроде Siri, Alexa или Cortana вести с нами полноценное совместное планирование планов на день. Сам же профессор признается, что предпочитает оставлять практическое внедрение коммерческим компаниям, сохраняя за собой право просто получать удовольствие от решения сложнейших гуманитарных задач.