В новом выпуске своего канала Янник Кильхер (Yannic Kilcher) разбирает междисциплинарное исследование на стыке машинного обучения и социальных наук, посвященное природе общественных норм. Вместе с авторами работы из DeepMind и ведущими экспертами по праву и экономике он исследует вопрос, почему в человеческих сообществах процветают «бессмысленные» правила и как глубокое обучение с подкреплением (RL) помогает объяснить этот эволюционный механизм.
🎩 Загадка «глупых правил» и вычислительная социология 0:01
Янник Кильхер (Yannic Kilcher) начинает дискуссию с фундаментального вопроса: почему в обществе существуют нормы, не несущие прямой материальной выгоды . В качестве примера он приводит запрет на ношение определенных головных уборов на похоронах — действие, которое само по себе не наносит вреда благосостоянию группы, но жестко карается социальным порицанием . Ученые называют это «ложной нормативностью» (spurious normativity) или «глупыми правилами» (silly rules).
В обсуждении принимают участие авторы статьи:
- Джиллиан Хадфилд (Gillian Hadfield) — специалист по социальным наукам, изучающая правовые и нормативные системы.
- Джоэл Либо (Joel Leibo) — исследователь из DeepMind, занимающийся вопросами коллективного интеллекта.
- Рафаэль Кустер (Raphael Kuster) — нейробиолог, работающий на стыке когнитивистики и ИИ.
По мнению авторов, использование мультиагентного обучения с подкреплением (MARL) позволяет создать «вычислительную модель общества» . В отличие от классической психологии, где эксперименты ограничены лабораторными условиями и выборкой людей, RL-модели позволяют контролировать все переменные и наблюдать за эволюцией поведения агентов на протяжении тысяч поколений .
🎮 Экспериментальная среда: ягоды, яд и наказание 11:46
Для проверки гипотез исследователи создали 2D-мировую карту, где искусственные агенты (нейросети) должны собирать ягоды .
Основные правила симуляции:
- Агенты получают очки за сбор ягод .
- Существуют ядовитые ягоды, которые наносят урон здоровью с задержкой в 100 шагов .
- Агенты могут «запировать» (zap) друг друга — это луч наказания, который отнимает очки и у того, кто стреляет, и у того, в кого попали .
- Если агент съел «запретную» ягоду, он окрашивается в другой цвет (становится маркированным) для остальных участников .
- Тот, кто наказывает (запирует) маркированного агента, получает вознаграждение от системы .
Янник Кильхер (Yannic Kilcher) отмечает важную техническую деталь: в симуляции одновременно участвуют 8 агентов, выбираемых из пула в 12 нейронных сетей . Это позволяет поддерживать разнообразие стратегий в популяции. Агенты используют архитектуру Actor-Critic и сверточные нейросети для обработки визуальной информации .
🧬 Гипотеза о переносе навыков принуждения 9:36
Центральный аргумент работы заключается в том, что навыки соблюдения норм и навыки их обеспечения (enforcement) развиваются асимметрично .
По словам авторов:
- Соблюдение норм (compliance) специфично для каждого правила. Нужно учиться избегать конкретной ягоды или надевать конкретную одежду .
- Обеспечение норм (enforcement) — это переносимый (generalizable) навык. Умение выслеживать нарушителя, распознавать маркер вины и вовремя применять наказание одинаково эффективно для любого типа правил .
Следовательно, введение «глупых правил» (например, запрет на поедание безвредных розовых ягод) дает обществу больше практики в наказании нарушителей . Это «тренировочное поле» позволяет агентам быстрее научиться обеспечивать соблюдение по-настоящему важных правил, таких как запрет на поедание яда .
📈 Результаты: почему обществу выгоден избыток правил 25:01
Эксперименты показали, что в условиях, где существуют и важные, и «глупые» правила, коллективное благосостояние (collective return) в долгосрочной перспективе оказывается выше .
Ключевые показатели исследования:
- Без правил: агенты постоянно травятся, так как RL-алгоритмы плохо справляются с отложенным наказанием (delayed reward) .
- Только важные правила: агенты учатся избегать яда, но медленно.
- Важные + глупые правила: на начальном этапе уровень наказаний резко возрастает, что временно снижает общее благосостояние . Однако затем общество гораздо быстрее переходит в состояние, где ядовитые ягоды практически не употребляются, а общая выгода становится максимальной .
Рафаэль Кустер поясняет, что «глупое правило» создает больше возможностей для обучения . Агенты чаще видят маркированных нарушителей и чаще получают награду за их наказание, что решает проблему «кредитного поручения» (credit assignment) в обучении с подкреплением .
🏛️ Исторические параллели: Исландия и масочные режимы 1:06:21
Джиллиан Хадфилд приводит в пример средневековую Исландию как общество с децентрализованным обеспечением норм . Там не было полиции или армии, но существовали четкие правила и «законоговоритель» (law speaker), который их оглашал . Если кто-то нарушал договор, всё сообщество было обязано наказать его (например, изгнать или отобрать овец) .
Авторы также проводят аналогию с современностью, упоминая масочные режимы во время пандемии . В таких ситуациях государство часто полагается не только на полицию, но и на то, что граждане сами будут порицать нарушителей, создавая «нормативную инфраструктуру» .
🤖 Путь к сильному ИИ (AGI) через социализацию 1:23:23
Джоэл Либо утверждает, что текущий подход к созданию ИИ (например, увеличение языковых моделей) может быть недостаточным для достижения человекоподобного интеллекта . По его мнению, секрет успеха человечества не в индивидуальной памяти или восприятии, а в коллективных механизмах: культуре, имитации и нормах .
Основные тезисы авторов о будущем ИИ:
- AGI по определению должен уметь считывать нормативную информацию в среде и участвовать в её поддержании .
- Нормы — это способ «настройки правил игры», которые позволяют обществу координировать инновации и разделять труд .
- ИИ-агентам необходимы «глупые правила» для оценки устойчивости системы. Если никто не наказывает за мелочи, агент может решить, что важные правила тоже не будут соблюдаться, и перестанет сотрудничать .
В завершение встречи авторы представили проект Melting Pot — библиотеку сред и эталонных тестов (benchmarks) для исследования мультиагентного взаимодействия, доступную для всего научного сообщества .