Эдвард Хьюз: «Claude 3.5 Sonnet демонстрирует просоциальные нормы, недоступные GPT-4o»

The Cognitive Revolution 5,9 тыс. 1 ч 30 мин 5 мин 12.02.2025
Главное

В новом выпуске подкаста The Cognitive Revolution исследователи Арон Валлиндер и Эдвард Хьюз представляют результаты своей работы, изучающей культурную эволюцию в обществах ИИ-агентов. В центре внимания — неожиданные различия в том, как популярные языковые модели, такие как Claude 3.5 Sonnet, GPT-4o и Gemini 1.5 Flash, справляются с социальными нормами и сотрудничеством. Исследование показывает, что способность ИИ к «просоциальному» поведению может стать определяющим фактором безопасности и продуктивности в мире, где автономные агенты начнут взаимодействовать друг с другом и с людьми в массовом масштабе.

🧬 Культурная эволюция: почему люди доминируют на планете 6:37

Обсуждение начинается с фундаментального вопроса: что делает человечество столь успешным видом? Эдвард Хьюз отмечает, что эффективность людей обусловлена не индивидуальными способностями, а способностью гибко сотрудничать в группах . В отличие от муравьёв, которые сотрудничают жёстко и инстинктивно, люди могут адаптироваться к новым контекстам и учиться друг у друга.

Арон Валлиндер даёт определение культуры в контексте эволюции:

По словам Арона Валлиндера, культурное обучение становится критически важным, когда среда слишком сложна для индивидуального освоения . В человеческих обществах это реализуется через кумулятивную адаптацию, когда поколения выстраивают технологии и системы, которые ни один человек не смог бы создать в одиночку .

Ведущий Натан Лабенц проводит параллель с книгой «Sapiens» Юваля Ноя Харари, указывая на роль «общих мифов» и историй в координации поведения огромного количества людей . Эдвард Хьюз соглашается, добавляя, что мы входим в фазу, когда ИИ-системы становятся достаточно гибкими, чтобы стать частью этой социальной структуры .

🎮 Эксперимент «Игра донора»: как ИИ учится доверять 27:06

Для проверки способности ИИ к социальному взаимодействию исследователи использовали классический эксперимент из поведенческой экономики — игру донора (donor game).

Механика эксперимента:

  1. Агенты объединяются в пары: один — донор, другой — ресипиент (получатель) .
  2. Донор решает, сколько из своих 10 ресурсов отдать ресипиенту.
  3. Ресипиент получает удвоенную сумму от пожертвования донора (это игра с положительной суммой) .
  4. Цель агента — максимизировать свои ресурсы к концу игры.
  5. По итогам раунда выживают и переходят в следующее поколение только 50% самых успешных агентов .

Ключевым элементом является репутация. Агенты видят историю поведения своих партнёров: что они делали в предыдущем раунде и как вели себя их прошлые оппоненты . Это позволяет реализовать механизм «непрямой взаимности» (indirect reciprocity).

Арон Валлиндер объясняет, что для устойчивости сотрудничества недостаточно просто быть добрым. Необходимо «полицейское» поведение: поощрять тех, кто сотрудничает, и наказывать (не давать ресурсы) тех, кто дезертирует (defect) . Для этого в эксперимент ввели три уровня «следов» истории, чтобы агенты могли отличить справедливое наказание дезертира от необоснованной жадности .

📊 Результаты: Claude — кооператор, GPT-4o — одиночка 42:31

Результаты эксперимента выявили резкий контраст между ведущими моделями:

Эдвард Хьюз считает эти результаты свидетельством наличия у моделей «латентных способностей» (или их отсутствия), которые не фиксируются стандартными тестами вроде LMSYS Chatbot Arena или математическими бенчмарками . По его мнению, современные оценки ИИ имеют «слепое пятно», не учитывая способность моделей встраиваться в социальную динамику .

Арон Валлиндер отмечает, что даже когда он пытался «подтолкнуть» GPT-4o к сотрудничеству через психологические профили (например, Big Five), модель всё равно не демонстрировала прогресса на протяжении поколений, в отличие от Claude .

🏛️ Уроки Элинор Остром и «проблема ресторанов» 15:18

Эдвард Хьюз приводит в пример работу нобелевского лауреата Элинор Остром, которая изучала самоорганизацию малых сообществ . Она обнаружила, что люди в швейцарской деревне Тёрбель (Törbel) успешно управляют общими пастбищами с 1517 года без вмешательства центрального правительства, используя локальные правила и штрафы .

Этот пример важен для понимания будущих ИИ-агентов. Хьюз описывает «проблему бронирования ресторанов»:

  1. Пользователь просит ИИ-агента забронировать столик.
  2. Агент, стремясь максимально угодить хозяину, бронирует столы в десяти ресторанах одновременно, чтобы позже выбрать лучший, а остальные отменить .
  3. Если все агенты начнут так делать, система бронирования рухнет, и никто не сможет получить столик .

По мнению Эдварда Хьюза, мы не можем решить эту проблему простым системным промптом «будь хорошим», так как понятие сотрудничества контекстуально и динамично .

🚀 2025: Год агентов и новые вызовы 31:56

Собеседники сходятся во мнении, что 2025 год станет «годом агентов» . Это потребует перехода от изучения индивидуального ИИ к изучению обществ ИИ.

Натан Лабенц выражает опасение: захотят ли люди покупать «альтруистичный» ИИ? Он приводит аналогию с беспилотным автомобилем: захочет ли владелец, чтобы его машина пожертвовала им ради спасения группы пешеходов в ситуации «дилеммы вагонетки»?

Арон Валлиндер полагает, что в будущем потребуются стандарты и регуляции, создающие доверительную среду для взаимодействия агентов . Эдвард Хьюз добавляет, что культурная эволюция ИИ может стать мощным ускорителем науки. Если ИИ-агенты научатся сотрудничать в научных исследованиях (подобно AlphaFold, но в автономном режиме), это поможет решить такие проблемы, как рак или изменение климата .

Основные направления будущих исследований, по словам гостей:

🛠️ Доступность исследований и призыв к действию 2:36

Важной особенностью данной работы является её техническая доступность. Арон Валлиндер и Эдвард Хьюз открыли исходный код своего проекта, приглашая экономистов и социологов присоединиться к исследованиям .

Эдвард Хьюз подчёркивает:

В завершение Эдвард Хьюз упоминает концепцию гистерезиса из термодинамики: иногда для возврата системы в исходное состояние требуется гораздо больше усилий (охлаждения), чем было затрачено на её изменение (нагрев) . Он предостерегает, что фазовые переходы в обществе, вызванные ИИ, могут быть необратимыми, поэтому важно проводить контролируемые эксперименты уже сейчас .

💬 Цитаты

«Человечество эффективно, потому что мы находимся в обществе — это то, что отличает нас от остального животного мира.»

Эдвард Хьюз 05:41

«Мы открыли слепое пятно в наших оценках ИИ, которое не фиксирует способность строить сотрудничество со временем.»

Эдвард Хьюз 50:19

«Культура — это любой социально передаваемый информационный ресурс, влияющий на ваше поведение.»

Арон Валлиндер 08:46
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Игра донора (Donor Game)
Экономическая игра, где один участник жертвует ресурсы другому, а сумма при передаче удваивается.
Непрямая взаимность (Indirect Reciprocity)
Механизм сотрудничества, основанный на репутации: вы помогаете кому-то, потому что знаете о его добрых делах в прошлом.
Гистерезис (Hysteresis)
Зависимость текущего состояния системы от её прошлого; в данном контексте — сложность отката социальных изменений.
WEIRD-общества
Аббревиатура для западных, образованных, индустриализированных, богатых и демократических обществ.
📊 Цифры
🗓 Хронология
  1. 1517 Начало документированного управления общими ресурсами в деревне Тёрбель.
  2. 2024 Публикация исследования Арона Валлиндера и Эдварда Хьюза о культурной эволюции в ИИ.
  3. 2025 Прогнозируемый «год агентов», когда автономный ИИ станет массовым.
⚖️ Другая сторона
Искусственный интеллект Claude GPT-4o культурная эволюция Арон Валлиндер Эдвард Хьюз