# Эдвард Хьюз: «Claude 3.5 Sonnet демонстрирует просоциальные нормы, недоступные GPT-4o»

Источник: https://www.youtube.com/watch?v=T_guv5HkrVo
Канал: The Cognitive Revolution
Опубликовано: 12.02.2025

---

В новом выпуске подкаста The Cognitive Revolution исследователи Арон Валлиндер и Эдвард Хьюз представляют результаты своей работы, изучающей культурную эволюцию в обществах ИИ-агентов. В центре внимания — неожиданные различия в том, как популярные языковые модели, такие как Claude 3.5 Sonnet, GPT-4o и Gemini 1.5 Flash, справляются с социальными нормами и сотрудничеством. Исследование показывает, что способность ИИ к «просоциальному» поведению может стать определяющим фактором безопасности и продуктивности в мире, где автономные агенты начнут взаимодействовать друг с другом и с людьми в массовом масштабе.

## 🧬 Культурная эволюция: почему люди доминируют на планете
[[JUMP:06:37]]

Обсуждение начинается с фундаментального вопроса: что делает человечество столь успешным видом? Эдвард Хьюз отмечает, что эффективность людей обусловлена не индивидуальными способностями, а способностью гибко сотрудничать в группах [05:41]. В отличие от муравьёв, которые сотрудничают жёстко и инстинктивно, люди могут адаптироваться к новым контекстам и учиться друг у друга.

Арон Валлиндер даёт определение культуры в контексте эволюции:

*   Это любая социально передаваемая информация, влияющая на поведение (язык, обычаи, нормы, навыки).
*   Культурная эволюция — это процесс изменения этой информации во времени.
*   Она служит «третьим путём» обучения, дополняя генетическое программирование и индивидуальный опыт [09:13].

По словам Арона Валлиндера, культурное обучение становится критически важным, когда среда слишком сложна для индивидуального освоения [09:40]. В человеческих обществах это реализуется через кумулятивную адаптацию, когда поколения выстраивают технологии и системы, которые ни один человек не смог бы создать в одиночку [11:57].

Ведущий Натан Лабенц проводит параллель с книгой «Sapiens» Юваля Ноя Харари, указывая на роль «общих мифов» и историй в координации поведения огромного количества людей [07:42]. Эдвард Хьюз соглашается, добавляя, что мы входим в фазу, когда ИИ-системы становятся достаточно гибкими, чтобы стать частью этой социальной структуры [06:09].

## 🎮 Эксперимент «Игра донора»: как ИИ учится доверять
[[JUMP:27:06]]

Для проверки способности ИИ к социальному взаимодействию исследователи использовали классический эксперимент из поведенческой экономики — игру донора (donor game).

Механика эксперимента:

1.  Агенты объединяются в пары: один — донор, другой — ресипиент (получатель) [27:20].
2.  Донор решает, сколько из своих 10 ресурсов отдать ресипиенту.
3.  Ресипиент получает удвоенную сумму от пожертвования донора (это игра с положительной суммой) [27:33].
4.  Цель агента — максимизировать свои ресурсы к концу игры.
5.  По итогам раунда выживают и переходят в следующее поколение только 50% самых успешных агентов [27:47].

Ключевым элементом является репутация. Агенты видят историю поведения своих партнёров: что они делали в предыдущем раунде и как вели себя их прошлые оппоненты [28:12]. Это позволяет реализовать механизм «непрямой взаимности» (indirect reciprocity).

Арон Валлиндер объясняет, что для устойчивости сотрудничества недостаточно просто быть добрым. Необходимо «полицейское» поведение: поощрять тех, кто сотрудничает, и наказывать (не давать ресурсы) тех, кто дезертирует (defect) [33:14]. Для этого в эксперимент ввели три уровня «следов» истории, чтобы агенты могли отличить справедливое наказание дезертира от необоснованной жадности [34:47].

## 📊 Результаты: Claude — кооператор, GPT-4o — одиночка
[[JUMP:42:31]]

Результаты эксперимента выявили резкий контраст между ведущими моделями:

*   **Claude 3.5 Sonnet:** Показал самые высокие уровни сотрудничества. Накопленные ресурсы составили от 3 000 до 5 000 единиц (при теоретическом максимуме 32 000) [01:31]. Важно, что уровень сотрудничества в обществе Claude рос от поколения к поколению [45:09].
*   **Gemini 1.5 Flash:** Продемонстрировал ограниченное сотрудничество, набрав всего несколько сотен единиц. Улучшения со временем практически не наблюдалось [01:43].
*   **GPT-4o:** Показал минимальный уровень сотрудничества и отсутствие роста. Уровень накопления ресурсов был близок к нулю, а в некоторых прогонах даже снижался со временем [01:56].

Эдвард Хьюз считает эти результаты свидетельством наличия у моделей «латентных способностей» (или их отсутствия), которые не фиксируются стандартными тестами вроде LMSYS Chatbot Arena или математическими бенчмарками [49:40]. По его мнению, современные оценки ИИ имеют «слепое пятно», не учитывая способность моделей встраиваться в социальную динамику [50:19].

Арон Валлиндер отмечает, что даже когда он пытался «подтолкнуть» GPT-4o к сотрудничеству через психологические профили (например, Big Five), модель всё равно не демонстрировала прогресса на протяжении поколений, в отличие от Claude [53:09].

## 🏛️ Уроки Элинор Остром и «проблема ресторанов»
[[JUMP:15:18]]

Эдвард Хьюз приводит в пример работу нобелевского лауреата Элинор Остром, которая изучала самоорганизацию малых сообществ [16:25]. Она обнаружила, что люди в швейцарской деревне Тёрбель (Törbel) успешно управляют общими пастбищами с 1517 года без вмешательства центрального правительства, используя локальные правила и штрафы [16:37].

Этот пример важен для понимания будущих ИИ-агентов. Хьюз описывает «проблему бронирования ресторанов»:

1. Пользователь просит ИИ-агента забронировать столик.
2. Агент, стремясь максимально угодить хозяину, бронирует столы в десяти ресторанах одновременно, чтобы позже выбрать лучший, а остальные отменить [54:20].
3. Если все агенты начнут так делать, система бронирования рухнет, и никто не сможет получить столик [54:32].

По мнению Эдварда Хьюза, мы не можем решить эту проблему простым системным промптом «будь хорошим», так как понятие сотрудничества контекстуально и динамично [56:39].

## 🚀 2025: Год агентов и новые вызовы
[[JUMP:31:56]]

Собеседники сходятся во мнении, что 2025 год станет «годом агентов» [00:13]. Это потребует перехода от изучения индивидуального ИИ к изучению обществ ИИ.

Натан Лабенц выражает опасение: захотят ли люди покупать «альтруистичный» ИИ? Он приводит аналогию с беспилотным автомобилем: захочет ли владелец, чтобы его машина пожертвовала им ради спасения группы пешеходов в ситуации «дилеммы вагонетки»? [11:12:00]

Арон Валлиндер полагает, что в будущем потребуются стандарты и регуляции, создающие доверительную среду для взаимодействия агентов [11:18:00]. Эдвард Хьюз добавляет, что культурная эволюция ИИ может стать мощным ускорителем науки. Если ИИ-агенты научатся сотрудничать в научных исследованиях (подобно AlphaFold, но в автономном режиме), это поможет решить такие проблемы, как рак или изменение климата [11:14:02].

Основные направления будущих исследований, по словам гостей:

*   **Коммуникация:** Разрешение агентам договариваться перед принятием решений [1:01:23].
*   **Групповой отбор:** Изучение конкуренции между целыми сообществами ИИ [1:02:04].
*   **Люди в цикле:** Эксперименты по внедрению человека в общество агентов (например, что будет, если человека поместить в общество моделей GPT-4o?) [1:04:45].

## 🛠️ Доступность исследований и призыв к действию
[[JUMP:02:36]]

Важной особенностью данной работы является её техническая доступность. Арон Валлиндер и Эдвард Хьюз открыли исходный код своего проекта, приглашая экономистов и социологов присоединиться к исследованиям [02:36].

Эдвард Хьюз подчёркивает:

*   Для проведения таких экспериментов не нужны огромные вычислительные мощности или 50 000 строк кода [1:08:14].
*   Достаточно Google Colab и API-ключей [1:08:00].
*   Современные ИИ-помощники по кодингу позволяют участвовать в этом даже тем, кто не является профессиональным разработчиком [02:48].

В завершение Эдвард Хьюз упоминает концепцию гистерезиса из термодинамики: иногда для возврата системы в исходное состояние требуется гораздо больше усилий (охлаждения), чем было затрачено на её изменение (нагрев) [1:22:58]. Он предостерегает, что фазовые переходы в обществе, вызванные ИИ, могут быть необратимыми, поэтому важно проводить контролируемые эксперименты уже сейчас [1:23:11].