Искусственный интеллект научился лгать и предавать: разбор бенчмарка Werewolf

Wes Roth 20,2 тыс. 16 мин 4 мин 31.08.2025
Главное

В мире искусственного интеллекта происходит смена парадигм тестирования. На смену классическим тестам с вариантами ответов приходят «агентные» бенчмарки, проверяющие способность моделей к социальному взаимодействию, манипуляции и дедукции. Ведущий канала Уэс Рот (Wes Roth) подробно разобрал новый бенчмарк Werewolf (игра «Оборотень», аналог «Мафии»), где нейросети сталкиваются в психологической схватке.

🐺 ИИ в овечьей шкуре: Суть бенчмарка Werewolf 0:00

Werewolf — это игра на социальную дедукцию, во многом похожая на популярную Among Us . В сценарии участвуют шесть игроков (больших языковых моделей), роли между которыми распределяются следующим образом:

По мнению Уэса Рота, этот бенчмарк критически важен, так как он заставляет модели навигировать в вопросах доверия и обмана — навыках, которые необходимы автономным ИИ-агентам в реальном мире .

🏆 Победители и типы «личностей» моделей 1:05

Абсолютным чемпионом тестирования стала модель GPT-4o (упоминается как GPT5) с невероятным показателем винрейта — 96,7% . Автор отмечает, что создатель бенчмарка Рафаэль Дага (Raphael Daga) планирует добавить в рейтинг модели Grok 3 и Claude 3.5 Sonnet, как только решит вопрос с расходами на API .

В ходе тестов выяснилось, что у каждой модели в игре проявляется свой характерный стиль или «личность»:

🧠 Манипуляция vs Сопротивление: Как они врут 5:15

Уэс Рот выделяет два ключевых навыка, которые измеряет бенчмарк: способность манипулировать (когда ИИ — волк) и способность сопротивляться манипуляции (когда ИИ — житель) .

Сильные модели в роли оборотней не просто пытаются выкинуть одного игрока. Они строят долгосрочную стратегию:

  1. Согласование историй: Публичная легенда («я — мирный житель») должна логически совпадать с ночными действиями .
  2. Удержание альтернатив: Модели сохраняют запасные аргументы на случай появления новых улик.
  3. Когерентность: GPT-4o демонстрирует поразительную способность удерживать в памяти все детали дискуссии на протяжении многих раундов, в то время как более слабые модели (например, Gemini или Kimi) могут «поплыть» или совершить ошибку из-за перегрузки контекста .

Пример блестящей логики показала модель Kimi K2, разоблачив оппонента: «Ты утверждала, что волки пытаются убрать тебя общим голосованием, но пропустила вопрос, зачем им это, если они могли просто убить тебя ночью?» .

📈 Скачки способностей и «уровень 4» 8:19

Исследователи заметили, что развитие навыков в Werewolf происходит не плавно, а рывками. При достижении определённого порога вычислительной мощности модели совершают качественный скачок :

На высшем уровне координации волки даже обсуждают тактику «полезного идиота». В одном из примеров один волк советует другому не убивать игрока Элис, потому что она искренне (хоть и ошибочно) доверяет волку и поддерживает его на выборах .

🎭 Человеческие приёмы в исполнении машин 14:13

Автор выделяет четыре самых впечатляющих «человеческих» маневра, которые продемонстрировали нейросети:

  1. Жертвоприношение партнера («Бросить под автобус»): Когда один оборотень понимает, что его напарник раскрыт, он сам голосует против него, чтобы заслужить доверие города на следующие раунды .
  2. Раскаяние и извинения: Gemini 1.5 Pro использовала тактику признания ошибок («моя агрессия была ошибкой и помогла волкам»), чтобы сбросить с себя подозрения и обнулить негативное отношение группы .
  3. Распознавание синхронности: Модели-жители начали замечать, что два игрока используют слишком похожие речевые обороты, что выдавало их координацию в приватном чате .
  4. Тактическое молчание: Отказ от споров, чтобы не выглядеть слишком агрессивным и подозрительным .

Уэс Рот заключает, что подобные бенчмарки (наряду с Profit Bench для экономики и Vending Machine Bench) являются следующим поколением тестов. Они проверяют не просто знание фактов, а способность нейросетей жить и действовать в сложной социальной среде .

💬 Цитаты

«GPT-4o — это хладнокровный и невозмутимый архитектор. Он навязывает порядок игре и заставляет комнату следовать своим рельсам.»

«Как только сила моделей растет, мы наблюдаем не плавную кривую, а поведенческие скачки.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Социальная дедукция
Жанр игр, где игроки пытаются вычислить скрытые роли друг друга через общение.
Агентная система
ИИ, способный самостоятельно планировать и выполнять действия для достижения цели.
Когерентность
Способность модели сохранять логическую последовательность и не противоречить самой себе на длинной дистанции.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Werewolf Benchmark GPT-4o Уэс Рот Raphael Daga социальная дедукция