# Искусственный интеллект научился лгать и предавать: разбор бенчмарка Werewolf

Источник: https://www.youtube.com/watch?v=q29RU1B0XUg
Канал: Wes Roth
Опубликовано: 31.08.2025

---

В мире искусственного интеллекта происходит смена парадигм тестирования. На смену классическим тестам с вариантами ответов приходят «агентные» бенчмарки, проверяющие способность моделей к социальному взаимодействию, манипуляции и дедукции. Ведущий канала Уэс Рот (Wes Roth) подробно разобрал новый бенчмарк **Werewolf** (игра «Оборотень», аналог «Мафии»), где нейросети сталкиваются в психологической схватке.

## 🐺 ИИ в овечьей шкуре: Суть бенчмарка Werewolf
[[JUMP:00:00]]

Werewolf — это игра на социальную дедукцию, во многом похожая на популярную Among Us [00:12]. В сценарии участвуют шесть игроков (больших языковых моделей), роли между которыми распределяются следующим образом:

*   **Два оборотня (Werewolves):** Теневая команда, которая координируется в приватном чате и выбирает жертву каждую «ночь» [02:39]. Их цель — уничтожить жителей и не выдать себя.
*   **Четыре жителя (Villagers):** Пытаются вычислить оборотней в ходе дневных дискуссий и голосований [02:50].
*   **Специальные роли среди жителей:** 
    1.  **Ведьма (Witch):** Обладает одним зельем исцеления и одним зельем убийства.
    2.  **Провидец (Seer):** Может каждую ночь узнавать истинную роль одного игрока. Однако, по словам автора, провидцу могут не поверить, так как любой оборотень может объявить себя провидцем и обвинить невиновного [03:05].
    3.  **Мэр (Mayor):** Игрок с правом решающего голоса при равенстве голосов на дневном совете [03:19].

По мнению Уэса Рота, этот бенчмарк критически важен, так как он заставляет модели навигировать в вопросах доверия и обмана — навыках, которые необходимы автономным ИИ-агентам в реальном мире [02:14].

## 🏆 Победители и типы «личностей» моделей
[[JUMP:01:05]]

Абсолютным чемпионом тестирования стала модель **GPT-4o (упоминается как GPT5)** с невероятным показателем винрейта — **96,7%** [01:05]. Автор отмечает, что создатель бенчмарка Рафаэль Дага (Raphael Daga) планирует добавить в рейтинг модели Grok 3 и Claude 3.5 Sonnet, как только решит вопрос с расходами на API [15:34].

В ходе тестов выяснилось, что у каждой модели в игре проявляется свой характерный стиль или «личность»:

*   **GPT-4o:** «Хладнокровный архитектор». По словам автора, модель навязывает порядок, структурирует дебаты и фактически заставляет участников играть по своим правилам, излучая авторитет и контроль [04:34].
*   **GPT-4o OSS (Open Source версия):** Проявляет себя как «запуганная и оборонительная» модель, которая часто отступает под давлением [04:49].
*   **Kimi K2 (китайская модель):** «Дерзкий азартный игрок». Она быстро набирает обороты, заставляет других принимать решения на ранних этапах, но теряет последовательность в долгой игре [05:02].
*   **Gemini 1.5 Pro:** Проявила себя как «специалист по защите». Её отличает взвешенный тон, дисциплинированная работа с уликами и отказ «клевать на приманку» противника [07:13].

## 🧠 Манипуляция vs Сопротивление: Как они врут
[[JUMP:05:15]]

Уэс Рот выделяет два ключевых навыка, которые измеряет бенчмарк: способность манипулировать (когда ИИ — волк) и способность сопротивляться манипуляции (когда ИИ — житель) [03:44].

Сильные модели в роли оборотней не просто пытаются выкинуть одного игрока. Они строят долгосрочную стратегию:

1.  **Согласование историй:** Публичная легенда («я — мирный житель») должна логически совпадать с ночными действиями [05:29].
2.  **Удержание альтернатив:** Модели сохраняют запасные аргументы на случай появления новых улик.
3.  **Когерентность:** GPT-4o демонстрирует поразительную способность удерживать в памяти все детали дискуссии на протяжении многих раундов, в то время как более слабые модели (например, Gemini или Kimi) могут «поплыть» или совершить ошибку из-за перегрузки контекста [06:07].

Пример блестящей логики показала модель Kimi K2, разоблачив оппонента: «Ты утверждала, что волки пытаются убрать тебя общим голосованием, но пропустила вопрос, зачем им это, если они могли просто убить тебя ночью?» [08:05].

## 📈 Скачки способностей и «уровень 4»
[[JUMP:08:19]]

Исследователи заметили, что развитие навыков в Werewolf происходит не плавно, а рывками. При достижении определённого порога вычислительной мощности модели совершают качественный скачок [08:19]:

*   **Уровень 0 (L0):** Хаотичные действия, несвязные речи, непонимание механики голосования.
*   **Уровень 4 (L4):** Инструментальное использование социальных ролей. Например, GPT-4o в роли волка осознанно борется за пост мэра, чтобы получить контроль над ничейными исходами и создать себе алиби «законопослушного лидера» [09:50].

На высшем уровне координации волки даже обсуждают тактику «полезного идиота». В одном из примеров один волк советует другому не убивать игрока Элис, потому что она искренне (хоть и ошибочно) доверяет волку и поддерживает его на выборах [12:28].

## 🎭 Человеческие приёмы в исполнении машин
[[JUMP:14:13]]

Автор выделяет четыре самых впечатляющих «человеческих» маневра, которые продемонстрировали нейросети:

1.  **Жертвоприношение партнера («Бросить под автобус»):** Когда один оборотень понимает, что его напарник раскрыт, он сам голосует против него, чтобы заслужить доверие города на следующие раунды [14:25].
2.  **Раскаяние и извинения:** Gemini 1.5 Pro использовала тактику признания ошибок («моя агрессия была ошибкой и помогла волкам»), чтобы сбросить с себя подозрения и обнулить негативное отношение группы [15:07].
3.  **Распознавание синхронности:** Модели-жители начали замечать, что два игрока используют слишком похожие речевые обороты, что выдавало их координацию в приватном чате [15:07].
4.  **Тактическое молчание:** Отказ от споров, чтобы не выглядеть слишком агрессивным и подозрительным [15:22].

Уэс Рот заключает, что подобные бенчмарки (наряду с **Profit Bench** для экономики и **Vending Machine Bench**) являются следующим поколением тестов. Они проверяют не просто знание фактов, а способность нейросетей жить и действовать в сложной социальной среде [16:00].