Как «глупые правила» помогают искусственным агентам учиться порядку

В новом выпуске своего канала Янник Кильхер (Yannic Kilcher) разбирает междисциплинарное исследование на стыке машинного обучения и социальных наук, посвященное природе общественных норм. Вместе с авторами работы из DeepMind и ведущими экспертами по праву и экономике он исследует вопрос, почему в человеческих сообществах процветают «бессмысленные» правила и как глубокое обучение с подкреплением (RL) помогает объяснить этот эволюционный механизм.

🎩 Загадка «глупых правил» и вычислительная социология 0:01

Янник Кильхер (Yannic Kilcher) начинает дискуссию с фундаментального вопроса: почему в обществе существуют нормы, не несущие прямой материальной выгоды . В качестве примера он приводит запрет на ношение определенных головных уборов на похоронах — действие, которое само по себе не наносит вреда благосостоянию группы, но жестко карается социальным порицанием . Ученые называют это «ложной нормативностью» (spurious normativity) или «глупыми правилами» (silly rules).

В обсуждении принимают участие авторы статьи:

Джиллиан Хадфилд (Gillian Hadfield) — специалист по социальным наукам, изучающая правовые и нормативные системы.
Джоэл Либо (Joel Leibo) — исследователь из DeepMind, занимающийся вопросами коллективного интеллекта.
Рафаэль Кустер (Raphael Kuster) — нейробиолог, работающий на стыке когнитивистики и ИИ.

По мнению авторов, использование мультиагентного обучения с подкреплением (MARL) позволяет создать «вычислительную модель общества» . В отличие от классической психологии, где эксперименты ограничены лабораторными условиями и выборкой людей, RL-модели позволяют контролировать все переменные и наблюдать за эволюцией поведения агентов на протяжении тысяч поколений .

🎮 Экспериментальная среда: ягоды, яд и наказание 11:46

Для проверки гипотез исследователи создали 2D-мировую карту, где искусственные агенты (нейросети) должны собирать ягоды .

Основные правила симуляции:

Агенты получают очки за сбор ягод .
Существуют ядовитые ягоды, которые наносят урон здоровью с задержкой в 100 шагов .
Агенты могут «запировать» (zap) друг друга — это луч наказания, который отнимает очки и у того, кто стреляет, и у того, в кого попали .
Если агент съел «запретную» ягоду, он окрашивается в другой цвет (становится маркированным) для остальных участников .
Тот, кто наказывает (запирует) маркированного агента, получает вознаграждение от системы .

Янник Кильхер (Yannic Kilcher) отмечает важную техническую деталь: в симуляции одновременно участвуют 8 агентов, выбираемых из пула в 12 нейронных сетей . Это позволяет поддерживать разнообразие стратегий в популяции. Агенты используют архитектуру Actor-Critic и сверточные нейросети для обработки визуальной информации .

🧬 Гипотеза о переносе навыков принуждения 9:36

Центральный аргумент работы заключается в том, что навыки соблюдения норм и навыки их обеспечения (enforcement) развиваются асимметрично .

По словам авторов:

Соблюдение норм (compliance) специфично для каждого правила. Нужно учиться избегать конкретной ягоды или надевать конкретную одежду .
Обеспечение норм (enforcement) — это переносимый (generalizable) навык. Умение выслеживать нарушителя, распознавать маркер вины и вовремя применять наказание одинаково эффективно для любого типа правил .

Следовательно, введение «глупых правил» (например, запрет на поедание безвредных розовых ягод) дает обществу больше практики в наказании нарушителей . Это «тренировочное поле» позволяет агентам быстрее научиться обеспечивать соблюдение по-настоящему важных правил, таких как запрет на поедание яда .

📈 Результаты: почему обществу выгоден избыток правил 25:01

Эксперименты показали, что в условиях, где существуют и важные, и «глупые» правила, коллективное благосостояние (collective return) в долгосрочной перспективе оказывается выше .

Ключевые показатели исследования:

Без правил: агенты постоянно травятся, так как RL-алгоритмы плохо справляются с отложенным наказанием (delayed reward) .
Только важные правила: агенты учатся избегать яда, но медленно.
Важные + глупые правила: на начальном этапе уровень наказаний резко возрастает, что временно снижает общее благосостояние . Однако затем общество гораздо быстрее переходит в состояние, где ядовитые ягоды практически не употребляются, а общая выгода становится максимальной .

Рафаэль Кустер поясняет, что «глупое правило» создает больше возможностей для обучения . Агенты чаще видят маркированных нарушителей и чаще получают награду за их наказание, что решает проблему «кредитного поручения» (credit assignment) в обучении с подкреплением .

🏛️ Исторические параллели: Исландия и масочные режимы 1:06:21

Джиллиан Хадфилд приводит в пример средневековую Исландию как общество с децентрализованным обеспечением норм . Там не было полиции или армии, но существовали четкие правила и «законоговоритель» (law speaker), который их оглашал . Если кто-то нарушал договор, всё сообщество было обязано наказать его (например, изгнать или отобрать овец) .

Авторы также проводят аналогию с современностью, упоминая масочные режимы во время пандемии . В таких ситуациях государство часто полагается не только на полицию, но и на то, что граждане сами будут порицать нарушителей, создавая «нормативную инфраструктуру» .

🤖 Путь к сильному ИИ (AGI) через социализацию 1:23:23

Джоэл Либо утверждает, что текущий подход к созданию ИИ (например, увеличение языковых моделей) может быть недостаточным для достижения человекоподобного интеллекта . По его мнению, секрет успеха человечества не в индивидуальной памяти или восприятии, а в коллективных механизмах: культуре, имитации и нормах .

Основные тезисы авторов о будущем ИИ:

AGI по определению должен уметь считывать нормативную информацию в среде и участвовать в её поддержании .
Нормы — это способ «настройки правил игры», которые позволяют обществу координировать инновации и разделять труд .
ИИ-агентам необходимы «глупые правила» для оценки устойчивости системы. Если никто не наказывает за мелочи, агент может решить, что важные правила тоже не будут соблюдаться, и перестанет сотрудничать .

В завершение встречи авторы представили проект Melting Pot — библиотеку сред и эталонных тестов (benchmarks) для исследования мультиагентного взаимодействия, доступную для всего научного сообщества .