Как «глупые правила» помогают искусственным агентам учиться порядку

Yannic Kilcher 7,1 тыс. 1 ч 36 мин 4 мин 08.03.2022
Главное

В новом выпуске своего канала Янник Кильхер (Yannic Kilcher) разбирает междисциплинарное исследование на стыке машинного обучения и социальных наук, посвященное природе общественных норм. Вместе с авторами работы из DeepMind и ведущими экспертами по праву и экономике он исследует вопрос, почему в человеческих сообществах процветают «бессмысленные» правила и как глубокое обучение с подкреплением (RL) помогает объяснить этот эволюционный механизм.

🎩 Загадка «глупых правил» и вычислительная социология 0:01

Янник Кильхер (Yannic Kilcher) начинает дискуссию с фундаментального вопроса: почему в обществе существуют нормы, не несущие прямой материальной выгоды . В качестве примера он приводит запрет на ношение определенных головных уборов на похоронах — действие, которое само по себе не наносит вреда благосостоянию группы, но жестко карается социальным порицанием . Ученые называют это «ложной нормативностью» (spurious normativity) или «глупыми правилами» (silly rules).

В обсуждении принимают участие авторы статьи:

По мнению авторов, использование мультиагентного обучения с подкреплением (MARL) позволяет создать «вычислительную модель общества» . В отличие от классической психологии, где эксперименты ограничены лабораторными условиями и выборкой людей, RL-модели позволяют контролировать все переменные и наблюдать за эволюцией поведения агентов на протяжении тысяч поколений .

🎮 Экспериментальная среда: ягоды, яд и наказание 11:46

Для проверки гипотез исследователи создали 2D-мировую карту, где искусственные агенты (нейросети) должны собирать ягоды .

Основные правила симуляции:

Янник Кильхер (Yannic Kilcher) отмечает важную техническую деталь: в симуляции одновременно участвуют 8 агентов, выбираемых из пула в 12 нейронных сетей . Это позволяет поддерживать разнообразие стратегий в популяции. Агенты используют архитектуру Actor-Critic и сверточные нейросети для обработки визуальной информации .

🧬 Гипотеза о переносе навыков принуждения 9:36

Центральный аргумент работы заключается в том, что навыки соблюдения норм и навыки их обеспечения (enforcement) развиваются асимметрично .

По словам авторов:

  1. Соблюдение норм (compliance) специфично для каждого правила. Нужно учиться избегать конкретной ягоды или надевать конкретную одежду .
  2. Обеспечение норм (enforcement) — это переносимый (generalizable) навык. Умение выслеживать нарушителя, распознавать маркер вины и вовремя применять наказание одинаково эффективно для любого типа правил .

Следовательно, введение «глупых правил» (например, запрет на поедание безвредных розовых ягод) дает обществу больше практики в наказании нарушителей . Это «тренировочное поле» позволяет агентам быстрее научиться обеспечивать соблюдение по-настоящему важных правил, таких как запрет на поедание яда .

📈 Результаты: почему обществу выгоден избыток правил 25:01

Эксперименты показали, что в условиях, где существуют и важные, и «глупые» правила, коллективное благосостояние (collective return) в долгосрочной перспективе оказывается выше .

Ключевые показатели исследования:

Рафаэль Кустер поясняет, что «глупое правило» создает больше возможностей для обучения . Агенты чаще видят маркированных нарушителей и чаще получают награду за их наказание, что решает проблему «кредитного поручения» (credit assignment) в обучении с подкреплением .

🏛️ Исторические параллели: Исландия и масочные режимы 1:06:21

Джиллиан Хадфилд приводит в пример средневековую Исландию как общество с децентрализованным обеспечением норм . Там не было полиции или армии, но существовали четкие правила и «законоговоритель» (law speaker), который их оглашал . Если кто-то нарушал договор, всё сообщество было обязано наказать его (например, изгнать или отобрать овец) .

Авторы также проводят аналогию с современностью, упоминая масочные режимы во время пандемии . В таких ситуациях государство часто полагается не только на полицию, но и на то, что граждане сами будут порицать нарушителей, создавая «нормативную инфраструктуру» .

🤖 Путь к сильному ИИ (AGI) через социализацию 1:23:23

Джоэл Либо утверждает, что текущий подход к созданию ИИ (например, увеличение языковых моделей) может быть недостаточным для достижения человекоподобного интеллекта . По его мнению, секрет успеха человечества не в индивидуальной памяти или восприятии, а в коллективных механизмах: культуре, имитации и нормах .

Основные тезисы авторов о будущем ИИ:

В завершение встречи авторы представили проект Melting Pot — библиотеку сред и эталонных тестов (benchmarks) для исследования мультиагентного взаимодействия, доступную для всего научного сообщества .


💬 Цитаты

«Искусственный общий интеллект (AGI) по определению должен включать способность участвовать в считывании нормативной информации в окружающей среде.»

Джиллиан Хадфилд 1:28:52

«Навыки обеспечения соблюдения норм переносятся от нормы к норме, в то время как навыки соблюдения специфичны для каждой нормы.»

Янник Кильхер 09:50
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Spurious normativity
Социальные нормы, которые не несут прямой материальной выгоды или пользы для выживания группы.
Multi-agent reinforcement learning (MARL)
Область машинного обучения, где несколько независимых агентов учатся взаимодействовать в общей среде.
Actor-Critic
Алгоритм обучения с подкреплением, где одна часть сети (Actor) выбирает действие, а другая (Critic) оценивает его результат.
Credit assignment problem
Проблема определения того, какое именно действие привело к получению награды в будущем.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepMind Янник Кильхер Джиллиан Хадфилд Melting Pot Multi-agent RL