# Как «глупые правила» помогают искусственным агентам учиться порядку

Источник: https://www.youtube.com/watch?v=6dvcYx9hcbE
Канал: Yannic Kilcher
Опубликовано: 08.03.2022

---

В новом выпуске своего канала Янник Кильхер (Yannic Kilcher) разбирает междисциплинарное исследование на стыке машинного обучения и социальных наук, посвященное природе общественных норм. Вместе с авторами работы из DeepMind и ведущими экспертами по праву и экономике он исследует вопрос, почему в человеческих сообществах процветают «бессмысленные» правила и как глубокое обучение с подкреплением (RL) помогает объяснить этот эволюционный механизм.

## 🎩 Загадка «глупых правил» и вычислительная социология
[[JUMP:00:01]]

Янник Кильхер (Yannic Kilcher) начинает дискуссию с фундаментального вопроса: почему в обществе существуют нормы, не несущие прямой материальной выгоды [0:13]. В качестве примера он приводит запрет на ношение определенных головных уборов на похоронах — действие, которое само по себе не наносит вреда благосостоянию группы, но жестко карается социальным порицанием [0:27]. Ученые называют это «ложной нормативностью» (spurious normativity) или «глупыми правилами» (silly rules).

В обсуждении принимают участие авторы статьи:

*   Джиллиан Хадфилд (Gillian Hadfield) — специалист по социальным наукам, изучающая правовые и нормативные системы.
*   Джоэл Либо (Joel Leibo) — исследователь из DeepMind, занимающийся вопросами коллективного интеллекта.
*   Рафаэль Кустер (Raphael Kuster) — нейробиолог, работающий на стыке когнитивистики и ИИ.

По мнению авторов, использование мультиагентного обучения с подкреплением (MARL) позволяет создать «вычислительную модель общества» [1:06]. В отличие от классической психологии, где эксперименты ограничены лабораторными условиями и выборкой людей, RL-модели позволяют контролировать все переменные и наблюдать за эволюцией поведения агентов на протяжении тысяч поколений [4:33].

## 🎮 Экспериментальная среда: ягоды, яд и наказание
[[JUMP:11:46]]

Для проверки гипотез исследователи создали 2D-мировую карту, где искусственные агенты (нейросети) должны собирать ягоды [12:11].

Основные правила симуляции:

*   Агенты получают очки за сбор ягод [12:37].
*   Существуют ядовитые ягоды, которые наносят урон здоровью с задержкой в 100 шагов [14:09].
*   Агенты могут «запировать» (zap) друг друга — это луч наказания, который отнимает очки и у того, кто стреляет, и у того, в кого попали [13:19].
*   Если агент съел «запретную» ягоду, он окрашивается в другой цвет (становится маркированным) для остальных участников [16:22].
*   Тот, кто наказывает (запирует) маркированного агента, получает вознаграждение от системы [14:50].

Янник Кильхер (Yannic Kilcher) отмечает важную техническую деталь: в симуляции одновременно участвуют 8 агентов, выбираемых из пула в 12 нейронных сетей [18:59]. Это позволяет поддерживать разнообразие стратегий в популяции. Агенты используют архитектуру Actor-Critic и сверточные нейросети для обработки визуальной информации [24:17].

## 🧬 Гипотеза о переносе навыков принуждения
[[JUMP:09:36]]

Центральный аргумент работы заключается в том, что навыки соблюдения норм и навыки их обеспечения (enforcement) развиваются асимметрично [35:12].

По словам авторов:

1.  Соблюдение норм (compliance) специфично для каждого правила. Нужно учиться избегать конкретной ягоды или надевать конкретную одежду [10:02].
2.  Обеспечение норм (enforcement) — это переносимый (generalizable) навык. Умение выслеживать нарушителя, распознавать маркер вины и вовремя применять наказание одинаково эффективно для любого типа правил [10:28].

Следовательно, введение «глупых правил» (например, запрет на поедание безвредных розовых ягод) дает обществу больше практики в наказании нарушителей [11:20]. Это «тренировочное поле» позволяет агентам быстрее научиться обеспечивать соблюдение по-настоящему важных правил, таких как запрет на поедание яда [23:51].

## 📈 Результаты: почему обществу выгоден избыток правил
[[JUMP:25:01]]

Эксперименты показали, что в условиях, где существуют и важные, и «глупые» правила, коллективное благосостояние (collective return) в долгосрочной перспективе оказывается выше [29:32].

Ключевые показатели исследования:

*   Без правил: агенты постоянно травятся, так как RL-алгоритмы плохо справляются с отложенным наказанием (delayed reward) [25:40].
*   Только важные правила: агенты учатся избегать яда, но медленно.
*   Важные + глупые правила: на начальном этапе уровень наказаний резко возрастает, что временно снижает общее благосостояние [29:20]. Однако затем общество гораздо быстрее переходит в состояние, где ядовитые ягоды практически не употребляются, а общая выгода становится максимальной [29:32].

Рафаэль Кустер поясняет, что «глупое правило» создает больше возможностей для обучения [58:06]. Агенты чаще видят маркированных нарушителей и чаще получают награду за их наказание, что решает проблему «кредитного поручения» (credit assignment) в обучении с подкреплением [58:19].

## 🏛️ Исторические параллели: Исландия и масочные режимы
[[JUMP:1:06:21]]

Джиллиан Хадфилд приводит в пример средневековую Исландию как общество с децентрализованным обеспечением норм [1:06:34]. Там не было полиции или армии, но существовали четкие правила и «законоговоритель» (law speaker), который их оглашал [1:06:49]. Если кто-то нарушал договор, всё сообщество было обязано наказать его (например, изгнать или отобрать овец) [1:07:14].

Авторы также проводят аналогию с современностью, упоминая масочные режимы во время пандемии [1:27:40]. В таких ситуациях государство часто полагается не только на полицию, но и на то, что граждане сами будут порицать нарушителей, создавая «нормативную инфраструктуру» [1:28:26].

## 🤖 Путь к сильному ИИ (AGI) через социализацию
[[JUMP:1:23:23]]

Джоэл Либо утверждает, что текущий подход к созданию ИИ (например, увеличение языковых моделей) может быть недостаточным для достижения человекоподобного интеллекта [1:23:35]. По его мнению, секрет успеха человечества не в индивидуальной памяти или восприятии, а в коллективных механизмах: культуре, имитации и нормах [1:24:42].

Основные тезисы авторов о будущем ИИ:

*   AGI по определению должен уметь считывать нормативную информацию в среде и участвовать в её поддержании [1:28:52].
*   Нормы — это способ «настройки правил игры», которые позволяют обществу координировать инновации и разделять труд [1:26:15].
*   ИИ-агентам необходимы «глупые правила» для оценки устойчивости системы. Если никто не наказывает за мелочи, агент может решить, что важные правила тоже не будут соблюдаться, и перестанет сотрудничать [1:31:07].

В завершение встречи авторы представили проект **Melting Pot** — библиотеку сред и эталонных тестов (benchmarks) для исследования мультиагентного взаимодействия, доступную для всего научного сообщества [1:35:49].

---