Янник Кильхер разобрал ИИ-агента CICERO от Meta AI, вошедшего в топ-10% игроков в „Дипломатию“

В своем детальном видеоразборе популярный IT-исследователь Янник Кильхер (Yannic Kilcher) анализирует устройство CICERO — революционного ИИ-агента от компании Meta AI, который смог достичь уровня лучших игроков-людей в сложной настольной игре «Дипломатия». В отличие от классических шахмат или го, «Дипломатия» требует от участников постоянного текстового общения на естественном языке, координации совместных действий и выстраивания доверия в условиях неизбежного предательства. Изучив научную статью разработчиков, ведущий объясняет, почему успех этой системы обнажает субоптимальность человеческого мышления, и подробно разбирает гибридную архитектуру, соединившую теорию игр с современными языковыми моделями.

🎲 Феномен «Дипломатии» и триумф искусственного интеллекта 0:00

Настольная игра «Дипломатия» представляет собой уникальное поле для испытания систем искусственного интеллекта.

Ее ключевое отличие от других популярных настольных игр заключается в том, что игроки вынуждены общаться друг с другом на естественном языке в приватных чатах для координации своих действий, совместного нападения на врагов и заключения союзов.

Любой ИИ-агент, желающий преуспеть в этой среде, должен общаться настолько естественно, чтобы живые люди даже не заподозрили в нем компьютерную программу.

Игровое поле разделено на множество территорий, принадлежащих различным фракциям, каждая из которых обозначена определенным цветом. Главная цель каждого участника — захватить как можно больше земель, уделяя особое внимание так называемым центрам снабжения (Supply Centers).

Игрокам доступен широкий спектр действий: они могут перемещать войска, атаковать соперников или поддерживать чужие атаки. Именно в этот момент на сцену выходит текстовый чат, где координируются совместные маневры, формируются альянсы и выстраивается хрупкое взаимное доверие.

Созданный специалистами компании Meta AI агент под названием CICERO продемонстрировал феноменальные результаты: он вошел в топ-10% лучших игроков по результатам участия в нескольких крупных турнирах.

Научная работа исследователей получила название «Игра на человеческом уровне в „Дипломатию“ путем объединения языковых моделей со стратегическим мышлением».

Как отмечается в аннотации статьи, CICERO эффективно интегрирует языковую модель с алгоритмами планирования и обучения с подкреплением, считывая намерения игроков из переписки и генерируя убедительные ответы ради достижения собственных стратегических целей.

🧠 «Человеческий фактор»: почему CICERO обыгрывает живых людей 3:01

Проанализировав дополнительный материал к статье и посмотрев видеообзоры профессиональных игроков, Янник Кильхер приходит к весьма провокационному выводу: по его мнению, CICERO побеждает во многом потому, что люди в этой игре действуют крайне глупо и эмоционально.

Ведущий упоминает разбор матча, в котором один профессиональный игрок противостоял сразу шести ИИ-агентам CICERO.

По словам блогера, для людей в «Дипломатии» первостепенное значение имеет именно социальный аспект — общение, попытки задобрить соперника и выстраивание эмоциональных связей.

Янник Кильхер утверждает, что даже игроки высочайшего уровня подвержены «тилту» — состоянию гнева и фрустрации.

Если живой человек сталкивается с предательством («ударом в спину»), он зачастую начинает действовать иррационально и мстить обидчику до конца партии, даже если это вредит его собственным интересам.

В то же время робот полностью лишен эмоций: если вероломный шаг выгоден с точки зрения теории игр, CICERO не обижается, а продолжает действовать строго рационально.

По мнению ведущего, в условиях чистой теории игр понятие «доверия» теряет всякий смысл, если партия имеет конечный финал, ведь в последний ход любому игроку выгодно предать союзника ради максимизации очков.

Янник Кильхер сравнивает «Дипломатию» с играми Werewolf («Мафия») и Among Us, отмечая, что без хаотичного человеческого фактора они стали бы невыносимо скучными, поскольку оптимальная математическая стратегия быстро уничтожила бы всю интригу. По его оценке, современное сообщество игроков в «Дипломатию» все еще находится очень далеко от по-настоящему оптимальной, жесткой игры.

🛠 Разделение обязанностей: архитектурный дуализм системы 7:00

Конструктивно CICERO состоит из двух крупных, но во многом изолированных друг от друга блоков: контролируемой диалоговой модели и модуля стратегического мышления.

Стратегический движок отвечает за расчет оптимальной траектории перемещения войск, в то время как языковая модель ведет коммуникацию с другими участниками.

Янник Кильхер высказывает важную критическую ремарку: эти системы работают достаточно обособленно. К сожалению ведущего, CICERO не использует язык как полноценный инструмент долгосрочного стратегического манипулирования.

Иными словами, ИИ не размышляет в духе: «Если я скажу игроку X вот эту фразу, то через два хода он примет нужное мне решение».

Вместо этого стратегический модуль сначала рассчитывает конкретные ходы на поле, формирует так называемые «интенты» (намерения), а диалоговое окно лишь переводит эти сухие математические команды в вежливый человеческий текст.

Диалоговый модуль здесь выполняет роль продвинутого переводчика, который берет абстрактную цель и превращает ее в естественную реплику для приватного чата.

⚓ Якорные стратегии и проблема человеческих норм 9:56

В играх, завязанных на кооперации, классический метод self-play (когда ИИ обучает сам себя) перестает работать.

По словам исследователей, чистая оптимизация без оглядки на человеческие данные может увести алгоритм в сторону крайне эффективных, но абсолютно чуждых человеку стратегий.

В результате ИИ начнет вести себя настолько «по-роботски», что живые игроки моментально разгадают его природу, откажутся от любого сотрудничества и уничтожат его коалицией.

Инженеры выделили ключевые вызовы, с которыми сталкивается ИИ в кооперативной среде:

Необходимость заземления (grounding) каждого генерируемого сообщения в реальном контексте текущего игрового поля.
Способность эффективно выстраивать доверие в жесткой среде, где сама механика игры поощряет тотальное недоверие.

Чтобы избежать этих ловушек, создатели CICERO применили метод «поведенческого клонирования» (Behavior Cloning), также известный как имитационное обучение. Они собрали колоссальный массив данных реальных человеческих партий в «Дипломатию».

На этой основе была обучена специальная «якорная стратегия» (anchor policy), которая буквально привязывает поведение ИИ к общепринятым человеческим нормам и ожиданиям.

Модель анализирует текущую ситуацию на поле и историю переписки, после чего выдает действие, которое в аналогичной ситуации вероятнее всего совершил бы обычный человек.

Статистика показывает невероятную вовлеченность ИИ в социальное взаимодействие: в среднем за одну партию CICERO отправляет и получает около 292 текстовых сообщений.

Ключевой игровой механикой, стимулирующей сотрудничество, является возможность поддержать войска соседа, что делает кооперацию математически выгодной даже между потенциальными врагами.

📊 Карта и история: внутренние шестеренки планирования 13:58

На вход системы CICERO подаются два основных компонента:

Текущее состояние игрового поля в данный момент времени.
Детальная история предыдущих ходов и маневров участников.

В рамках классического обучения с подкреплением история крайне важна, поскольку действия людей не всегда подчиняются марковским процессам и зависят от контекста прошлых обид и соглашений.

Информация распределяется по разным аналитическим веткам, где центральное место занимает модуль планирования ходов.

В отличие от двухпользовательских шахмат, в «Дипломатии» планировщик должен рассчитать совместное распределение действий (joint action) сразу для всех семи участников, ходящих одновременно.

Алгоритм осуществляет симуляцию вариантов развития событий на несколько шагов вперед, постоянно улучшая свою внутреннюю политику.

Но главным нововведением разработчиков Meta AI стало то, что этот сугубо математический просчет постоянно корректируется сигналами от той самой «якорной стратегии».

В результате получается гибрид: ИИ стремится выбрать максимально выгодный ход, но при этом жестко следит за тем, чтобы он не выглядел дико или противоестественно для человека.

Любопытно, что сам базовый цикл планирования происходит без прямого чтения текста чата — влияние диалогов учитывается опосредованно, через обученную на переписке якорную модель.

На выходе модуль планирования генерирует четкие структурированные «интенты» — планы того, что ИИ собирается делать сам и чего он ждет от контрагентов.

💬 От намерений к тексту: генерация и контроль диалога 21:55

Получив сформированные интенты из планировщика, в работу включается модуль генерации сообщений.

У него три источника данных: состояние доски, история текущего диалога и собственно математический план будущих действий.

На основе этой связки языковая модель генерирует множество вариантов реплик, которые отправляются на жесткую многоступенчатую фильтрацию, прежде чем попасть в чат к реальному человеку.

В качестве примера авторы приводят диалог между Австрией (под управлением ИИ) и Италией (человек).

CICERO предлагает: «Привет, Италия, не хочешь поработать вместе? Если ты поддержишь меня, мы оба сможем быстро вырасти». Италия отвечает встречным условием: «Можешь ли ты в ответ поддержать мое движение в Болгарию?».

Модель мгновенно пересчитывает свои планы и соглашается: «Конечно, я уже отдал приказ Сербии поддержать Грецию в Болгарии».

Чтобы научить ИИ такой гибкости, инженерам пришлось создать промежуточную «модель интентов».

Она брала реальные логи чатов из прошлых игр людей и автоматически размечала, какие именно игровые ходы подразумевались под теми или иными вежливыми фразами.

В результате языковая модель CICERO научилась не просто бездумно болтать, а генерировать удивительно богатый, вежливый и литературный текст, четко привязанный к координации войск на карте.

⚖️ Алгоритм PiKL: баланс между победой и маскировкой 36:59

Модуль стратегического мышления CICERO опирается на модифицированную версию алгоритма PiKL (а именно DI-L-PiKL).

Эта итерационная система предсказывает политики поведения окружающих игроков и рассчитывает собственный оптимальный ответ.

Однако базовое поведенческое клонирование само по себе хрупко и склонно перенимать ложные корреляции из человеческих данных.

Чтобы решить эту проблему, алгоритм PiKL принудительно заставляет агента балансировать между двумя целями: максимизировать ожидаемую игровую выгоду и минимизировать KL-дивергенцию (расхождение) между своей стратегией и «человеческой» якорной политикой.

Этот баланс регулируется специальным коэффициентом — параметром Lambda ($\lambda$).

Примечательно, что во время реальной игры против людей CICERO использует двойные стандарты: при прогнозировании чужих ходов ИИ выставляет высокую Lambda (ожидая от людей типично человеческого, пусть и субоптимального поведения), но снижает этот параметр при выборе собственных ходов.

По выражению Янника Кильхера, ИИ как бы говорит: «Да, я хочу притворяться человеком, но в конечном счете я здесь ради победы!».

Именно этот прагматичный сдвиг позволяет CICERO находить уязвимости в защите оппонентов и совершать ходы, которые эксперты называют чисто «ботовскими», но приносящими победу.

🔬 Контекст имеет значение: как слова меняют стратегию на ходу 41:32

Переписка в чате оказывает прямое, пусть и специфическое влияние на математические расчеты планировщика.

В качестве наглядной демонстрации в статье приводится ситуация, где CICERO играет за Францию, а его партнером по диалогу выступает Англия.

Если Англия пишет дружелюбное сообщение: «Да, я выведу флот из Англии, если ты отойдешь в Nao», CICERO с вероятностью 85% прогнозирует мирное отступление британских войск и послушно уводит свои армии от побережья, выполняя договор.

Однако стоит Англии отправить холодное и полное недоверия письмо: «Ты воевал против меня всю игру, я не верю, что ты остановишься», картина кардинально меняется.

Система мгновенно перестраивает прогнозы: теперь вероятность вероломной атаки со стороны Англии оценивается в 90%.

CICERO отменяет мирный маневр, оставляет войска на побережье для обороны и наносит превентивный удар.

При этом ИИ не пытается распознать, лжет ли ему собеседник на психологическом уровне, он лишь напрямую прогоняет текст через PiKL-модель, которая автоматически корректирует вероятности поведения людей на основе лингвистического контекста.

Подобный подход позволяет эффективно подстраивать военные планы под тон общения, даже не имея доступа к приватным беседам, которые соперники ведут между собой за спиной у агента.

🛡️ Сито для ИИ: фильтрация бреда и защита от утечки планов 48:54

Современные большие языковые модели регулярно страдают от галлюцинаций, противоречий и выдачи фактологического бреда, и базовая модель Meta AI не стала исключением.

В процессе генерации ИИ нередко допускал тактические ошибки в тексте сообщений, путал названия стран или предлагал ходы, прямо противоречащие его секретным планам.

Для решения этой критической проблемы разработчикам пришлось внедрить мощную систему пост-обработки сообщений.

Инженеры искусственно создали огромный массив «мусорных» текстов, содержащих типичные ошибки ИИ, и обучили целую цепочку из 16 независимых классификаторов.

Эти фильтры с высокой точностью отличают связную человеческую речь от деструктивных галлюцинаций модели и блокируют подозрительные реплики.

Также система автоматически отсеивает те сообщения, которые при обратном анализе снижают вероятность выполнения собственных намеченных ходов CICERO.

Другой серьезной угрозой стала избыточная честность робота.

Поскольку CICERO обучался на отфильтрованном «честном» подмножестве человеческих диалогов для улучшения координации, в тестовых матчах он начал страдать от опасной информационной утечки.

Бот мог вежливо написать потенциальному врагу: «Я собираюсь напасть на тебя в следующем ходу», что полностью разрушало фактор внезапности.

Чтобы ликвидировать эту уязвимость, разработчики подключили функцию оценки ценности (value function), напоминающую алгоритмы AlphaZero.

Теперь каждая сгенерированная фраза оценивается с точки зрения ее долгосрочного влияния на исход матча, и если сообщение избыточно раскрывает карты ИИ и снижает его шансы на победу, оно безжалостно блокируется цензурой.

🕵️‍♂️ Эксперименты на людях и этический вопрос 53:41

В рамках тестирования CICERO создатели тайно запустили ИИ в официальные онлайн-турниры, где он играл против живых людей, абсолютно не подозревавших, что за маской вежливого оппонента скрывается сервер Meta AI.

Правда открылась игрокам лишь после завершения всего исследования, когда они получили официальные уведомления на электронную почту.

Янник Кильхер отмечает, что один из участников был буквально ошеломлен и долго не мог поверить, что вел столь глубокие тактические беседы с машиной.

Хотя эксперименты над людьми формально требуют жесткого одобрения комитетов по этике, блогер признает, что в данном случае никто не подвергался опасности, а результаты оказались потрясающими.

В дополнительных материалах приведены примеры блестящих переговоров CICERO.

В одном из матчей бот смог переубедить игрока за Турцию, наглядно расписав ему субоптимальность его текущей позиции и предложив альтернативный план действий, с которым человек в итоге безоговорочно согласился.

Тем не менее, у системы остаются явные ограничения. На текущем этапе CICERO воспринимает диалог исключительно в рамках ходов текущего раунда.

Он принципиально не способен просчитывать, как сказанное слово отразится на его долгосрочной репутации на протяжении всей многочасовой игры, не умеет намеренно задавать наводящие вопросы или давать глубокие ложные объяснения.

По мнению Янника Кильхера, языковая модель здесь пока выступает лишь продвинутым фасадом для математического планировщика.

Тем не менее, CICERO наглядно доказал: даже в играх, построенных на предательстве и интригах, главным источником интереса и победы остается холодная рациональность, превосходящая хаотичные человеческие эмоции.