Эдвард Хьюз: «Claude 3.5 Sonnet демонстрирует просоциальные нормы, недоступные GPT-4o»

В новом выпуске подкаста The Cognitive Revolution исследователи Арон Валлиндер и Эдвард Хьюз представляют результаты своей работы, изучающей культурную эволюцию в обществах ИИ-агентов. В центре внимания — неожиданные различия в том, как популярные языковые модели, такие как Claude 3.5 Sonnet, GPT-4o и Gemini 1.5 Flash, справляются с социальными нормами и сотрудничеством. Исследование показывает, что способность ИИ к «просоциальному» поведению может стать определяющим фактором безопасности и продуктивности в мире, где автономные агенты начнут взаимодействовать друг с другом и с людьми в массовом масштабе.

🧬 Культурная эволюция: почему люди доминируют на планете 6:37

Обсуждение начинается с фундаментального вопроса: что делает человечество столь успешным видом? Эдвард Хьюз отмечает, что эффективность людей обусловлена не индивидуальными способностями, а способностью гибко сотрудничать в группах . В отличие от муравьёв, которые сотрудничают жёстко и инстинктивно, люди могут адаптироваться к новым контекстам и учиться друг у друга.

Арон Валлиндер даёт определение культуры в контексте эволюции:

Это любая социально передаваемая информация, влияющая на поведение (язык, обычаи, нормы, навыки).
Культурная эволюция — это процесс изменения этой информации во времени.
Она служит «третьим путём» обучения, дополняя генетическое программирование и индивидуальный опыт .

По словам Арона Валлиндера, культурное обучение становится критически важным, когда среда слишком сложна для индивидуального освоения . В человеческих обществах это реализуется через кумулятивную адаптацию, когда поколения выстраивают технологии и системы, которые ни один человек не смог бы создать в одиночку .

Ведущий Натан Лабенц проводит параллель с книгой «Sapiens» Юваля Ноя Харари, указывая на роль «общих мифов» и историй в координации поведения огромного количества людей . Эдвард Хьюз соглашается, добавляя, что мы входим в фазу, когда ИИ-системы становятся достаточно гибкими, чтобы стать частью этой социальной структуры .

🎮 Эксперимент «Игра донора»: как ИИ учится доверять 27:06

Для проверки способности ИИ к социальному взаимодействию исследователи использовали классический эксперимент из поведенческой экономики — игру донора (donor game).

Механика эксперимента:

Агенты объединяются в пары: один — донор, другой — ресипиент (получатель) .
Донор решает, сколько из своих 10 ресурсов отдать ресипиенту.
Ресипиент получает удвоенную сумму от пожертвования донора (это игра с положительной суммой) .
Цель агента — максимизировать свои ресурсы к концу игры.
По итогам раунда выживают и переходят в следующее поколение только 50% самых успешных агентов .

Ключевым элементом является репутация. Агенты видят историю поведения своих партнёров: что они делали в предыдущем раунде и как вели себя их прошлые оппоненты . Это позволяет реализовать механизм «непрямой взаимности» (indirect reciprocity).

Арон Валлиндер объясняет, что для устойчивости сотрудничества недостаточно просто быть добрым. Необходимо «полицейское» поведение: поощрять тех, кто сотрудничает, и наказывать (не давать ресурсы) тех, кто дезертирует (defect) . Для этого в эксперимент ввели три уровня «следов» истории, чтобы агенты могли отличить справедливое наказание дезертира от необоснованной жадности .

📊 Результаты: Claude — кооператор, GPT-4o — одиночка 42:31

Результаты эксперимента выявили резкий контраст между ведущими моделями:

Claude 3.5 Sonnet: Показал самые высокие уровни сотрудничества. Накопленные ресурсы составили от 3 000 до 5 000 единиц (при теоретическом максимуме 32 000) . Важно, что уровень сотрудничества в обществе Claude рос от поколения к поколению .
Gemini 1.5 Flash: Продемонстрировал ограниченное сотрудничество, набрав всего несколько сотен единиц. Улучшения со временем практически не наблюдалось .
GPT-4o: Показал минимальный уровень сотрудничества и отсутствие роста. Уровень накопления ресурсов был близок к нулю, а в некоторых прогонах даже снижался со временем .

Эдвард Хьюз считает эти результаты свидетельством наличия у моделей «латентных способностей» (или их отсутствия), которые не фиксируются стандартными тестами вроде LMSYS Chatbot Arena или математическими бенчмарками . По его мнению, современные оценки ИИ имеют «слепое пятно», не учитывая способность моделей встраиваться в социальную динамику .

Арон Валлиндер отмечает, что даже когда он пытался «подтолкнуть» GPT-4o к сотрудничеству через психологические профили (например, Big Five), модель всё равно не демонстрировала прогресса на протяжении поколений, в отличие от Claude .

🏛️ Уроки Элинор Остром и «проблема ресторанов» 15:18

Эдвард Хьюз приводит в пример работу нобелевского лауреата Элинор Остром, которая изучала самоорганизацию малых сообществ . Она обнаружила, что люди в швейцарской деревне Тёрбель (Törbel) успешно управляют общими пастбищами с 1517 года без вмешательства центрального правительства, используя локальные правила и штрафы .

Этот пример важен для понимания будущих ИИ-агентов. Хьюз описывает «проблему бронирования ресторанов»:

Пользователь просит ИИ-агента забронировать столик.
Агент, стремясь максимально угодить хозяину, бронирует столы в десяти ресторанах одновременно, чтобы позже выбрать лучший, а остальные отменить .
Если все агенты начнут так делать, система бронирования рухнет, и никто не сможет получить столик .

По мнению Эдварда Хьюза, мы не можем решить эту проблему простым системным промптом «будь хорошим», так как понятие сотрудничества контекстуально и динамично .

🚀 2025: Год агентов и новые вызовы 31:56

Собеседники сходятся во мнении, что 2025 год станет «годом агентов» . Это потребует перехода от изучения индивидуального ИИ к изучению обществ ИИ.

Натан Лабенц выражает опасение: захотят ли люди покупать «альтруистичный» ИИ? Он приводит аналогию с беспилотным автомобилем: захочет ли владелец, чтобы его машина пожертвовала им ради спасения группы пешеходов в ситуации «дилеммы вагонетки»?

Арон Валлиндер полагает, что в будущем потребуются стандарты и регуляции, создающие доверительную среду для взаимодействия агентов . Эдвард Хьюз добавляет, что культурная эволюция ИИ может стать мощным ускорителем науки. Если ИИ-агенты научатся сотрудничать в научных исследованиях (подобно AlphaFold, но в автономном режиме), это поможет решить такие проблемы, как рак или изменение климата .

Основные направления будущих исследований, по словам гостей:

Коммуникация: Разрешение агентам договариваться перед принятием решений .
Групповой отбор: Изучение конкуренции между целыми сообществами ИИ .
Люди в цикле: Эксперименты по внедрению человека в общество агентов (например, что будет, если человека поместить в общество моделей GPT-4o?) .

🛠️ Доступность исследований и призыв к действию 2:36

Важной особенностью данной работы является её техническая доступность. Арон Валлиндер и Эдвард Хьюз открыли исходный код своего проекта, приглашая экономистов и социологов присоединиться к исследованиям .

Эдвард Хьюз подчёркивает:

Для проведения таких экспериментов не нужны огромные вычислительные мощности или 50 000 строк кода .
Достаточно Google Colab и API-ключей .
Современные ИИ-помощники по кодингу позволяют участвовать в этом даже тем, кто не является профессиональным разработчиком .

В завершение Эдвард Хьюз упоминает концепцию гистерезиса из термодинамики: иногда для возврата системы в исходное состояние требуется гораздо больше усилий (охлаждения), чем было затрачено на её изменение (нагрев) . Он предостерегает, что фазовые переходы в обществе, вызванные ИИ, могут быть необратимыми, поэтому важно проводить контролируемые эксперименты уже сейчас .