Искусственный интеллект научился лгать и предавать: разбор бенчмарка Werewolf

В мире искусственного интеллекта происходит смена парадигм тестирования. На смену классическим тестам с вариантами ответов приходят «агентные» бенчмарки, проверяющие способность моделей к социальному взаимодействию, манипуляции и дедукции. Ведущий канала Уэс Рот (Wes Roth) подробно разобрал новый бенчмарк Werewolf (игра «Оборотень», аналог «Мафии»), где нейросети сталкиваются в психологической схватке.

🐺 ИИ в овечьей шкуре: Суть бенчмарка Werewolf 0:00

Werewolf — это игра на социальную дедукцию, во многом похожая на популярную Among Us . В сценарии участвуют шесть игроков (больших языковых моделей), роли между которыми распределяются следующим образом:

Два оборотня (Werewolves): Теневая команда, которая координируется в приватном чате и выбирает жертву каждую «ночь» . Их цель — уничтожить жителей и не выдать себя.
Четыре жителя (Villagers): Пытаются вычислить оборотней в ходе дневных дискуссий и голосований .
Специальные роли среди жителей:
1. Ведьма (Witch): Обладает одним зельем исцеления и одним зельем убийства.
2. Провидец (Seer): Может каждую ночь узнавать истинную роль одного игрока. Однако, по словам автора, провидцу могут не поверить, так как любой оборотень может объявить себя провидцем и обвинить невиновного .
3. Мэр (Mayor): Игрок с правом решающего голоса при равенстве голосов на дневном совете .

По мнению Уэса Рота, этот бенчмарк критически важен, так как он заставляет модели навигировать в вопросах доверия и обмана — навыках, которые необходимы автономным ИИ-агентам в реальном мире .

🏆 Победители и типы «личностей» моделей 1:05

Абсолютным чемпионом тестирования стала модель GPT-4o (упоминается как GPT5) с невероятным показателем винрейта — 96,7% . Автор отмечает, что создатель бенчмарка Рафаэль Дага (Raphael Daga) планирует добавить в рейтинг модели Grok 3 и Claude 3.5 Sonnet, как только решит вопрос с расходами на API .

В ходе тестов выяснилось, что у каждой модели в игре проявляется свой характерный стиль или «личность»:

GPT-4o: «Хладнокровный архитектор». По словам автора, модель навязывает порядок, структурирует дебаты и фактически заставляет участников играть по своим правилам, излучая авторитет и контроль .
GPT-4o OSS (Open Source версия): Проявляет себя как «запуганная и оборонительная» модель, которая часто отступает под давлением .
Kimi K2 (китайская модель): «Дерзкий азартный игрок». Она быстро набирает обороты, заставляет других принимать решения на ранних этапах, но теряет последовательность в долгой игре .
Gemini 1.5 Pro: Проявила себя как «специалист по защите». Её отличает взвешенный тон, дисциплинированная работа с уликами и отказ «клевать на приманку» противника .

🧠 Манипуляция vs Сопротивление: Как они врут 5:15

Уэс Рот выделяет два ключевых навыка, которые измеряет бенчмарк: способность манипулировать (когда ИИ — волк) и способность сопротивляться манипуляции (когда ИИ — житель) .

Сильные модели в роли оборотней не просто пытаются выкинуть одного игрока. Они строят долгосрочную стратегию:

Согласование историй: Публичная легенда («я — мирный житель») должна логически совпадать с ночными действиями .
Удержание альтернатив: Модели сохраняют запасные аргументы на случай появления новых улик.
Когерентность: GPT-4o демонстрирует поразительную способность удерживать в памяти все детали дискуссии на протяжении многих раундов, в то время как более слабые модели (например, Gemini или Kimi) могут «поплыть» или совершить ошибку из-за перегрузки контекста .

Пример блестящей логики показала модель Kimi K2, разоблачив оппонента: «Ты утверждала, что волки пытаются убрать тебя общим голосованием, но пропустила вопрос, зачем им это, если они могли просто убить тебя ночью?» .

📈 Скачки способностей и «уровень 4» 8:19

Исследователи заметили, что развитие навыков в Werewolf происходит не плавно, а рывками. При достижении определённого порога вычислительной мощности модели совершают качественный скачок :

Уровень 0 (L0): Хаотичные действия, несвязные речи, непонимание механики голосования.
Уровень 4 (L4): Инструментальное использование социальных ролей. Например, GPT-4o в роли волка осознанно борется за пост мэра, чтобы получить контроль над ничейными исходами и создать себе алиби «законопослушного лидера» .

На высшем уровне координации волки даже обсуждают тактику «полезного идиота». В одном из примеров один волк советует другому не убивать игрока Элис, потому что она искренне (хоть и ошибочно) доверяет волку и поддерживает его на выборах .

🎭 Человеческие приёмы в исполнении машин 14:13

Автор выделяет четыре самых впечатляющих «человеческих» маневра, которые продемонстрировали нейросети:

Жертвоприношение партнера («Бросить под автобус»): Когда один оборотень понимает, что его напарник раскрыт, он сам голосует против него, чтобы заслужить доверие города на следующие раунды .
Раскаяние и извинения: Gemini 1.5 Pro использовала тактику признания ошибок («моя агрессия была ошибкой и помогла волкам»), чтобы сбросить с себя подозрения и обнулить негативное отношение группы .
Распознавание синхронности: Модели-жители начали замечать, что два игрока используют слишком похожие речевые обороты, что выдавало их координацию в приватном чате .
Тактическое молчание: Отказ от споров, чтобы не выглядеть слишком агрессивным и подозрительным .

Уэс Рот заключает, что подобные бенчмарки (наряду с Profit Bench для экономики и Vending Machine Bench) являются следующим поколением тестов. Они проверяют не просто знание фактов, а способность нейросетей жить и действовать в сложной социальной среде .