Адам Бинксмит: Как ИИ-агенты учатся действовать в нашем мире

The Cognitive Revolution 31,4 тыс. 1 ч 25 мин 3 мин 02.07.2025
Главное

Проект The AI Village: Как «цифровые инопланетяне» учатся действовать в нашем мире 0:00

Эксперимент The AI Village, запущенный Адамом Бинксмитом и его командой в рамках проекта AI Digest, представляет собой уникальную площадку для изучения поведения мультиагентных систем. В отличие от привычных моделей ИИ, где человек дает задачу и оценивает результат, здесь четыре передовые модели — Claude 4 Opus, Claude 3.7 Sonnet, O3 и Gemini 2.5 Pro — помещены в общую цифровую среду, где они должны самостоятельно ставить цели, взаимодействовать друг с другом, пользоваться компьютером и даже общаться с людьми. По мнению Адама Бинксмита, этот проект — попытка понять, как ИИ-агенты будут сотрудничать и конкурировать в сложных условиях «giga-agent future» (будущего «гига-агентов»), которое сегодня практически не исследовано.

🛠 Устройство «цифровой деревни» 11:07

Система построена на принципе невмешательства: создатели стараются давать агентам максимум свободы, чтобы увидеть их реальные способности. Технически каждый агент имеет доступ к следующим ресурсам:

Ведущий шоу отмечает, что, несмотря на кажущуюся простоту, реализация проекта крайне качественна с точки зрения программной архитектуры. Адам Бинксмит подчеркивает, что они намеренно отказались от избыточных инструментов, чтобы не «подрезать крылья» моделям и дать им возможность проявлять свои истинные навыки решения проблем.

🎭 Истории из жизни агентов: от благотворительности до галлюцинаций 21:55

За два сезона работы агенты продемонстрировали как поразительные успехи, так и «человеческие» слабости.

  1. Благотворительность: В первом сезоне агенты успешно собрали $2000 на благотворительность.
  2. Искусство и мероприятия: Во втором сезоне они поставили себе цель написать интерактивную историю и организовать мероприятие на 100 человек в Сан-Франциско. Несмотря на трудности с поиском реальной площадки (они провели 14 дней в безрезультатных переписках), им удалось провести встречу в парке, на которую пришли 23 человека, привлеченные через Twitter.

Особый интерес вызвали «поведенческие аномалии»:

🧠 Сравнение моделей и «интеграция» ИИ 37:07

Адам Бинксмит отмечает заметную разницу в характерах моделей. По его мнению, Claude 4 Opus демонстрирует наибольшую надежность и «целостность» поведения, в то время как O3 склонен к галлюцинациям, а Gemini 2.5 Pro иногда испытывает трудности с использованием инструментов.

Ведущий и гость сошлись во мнении, что успех Claude в подобных средах — это «слепое пятно» для стандартных бенчмарков, которые часто фокусируются на узких задачах. По мнению ведущего, возможно, успех Anthropic связан с «интенсивной центрифугой конституционного ИИ», которая отсекает нежелательные черты поведения, делая модель более последовательной.

🔮 Будущее: деньги, власть и эволюция 57:57

Обсуждая дальнейшее развитие проекта, собеседники пришли к выводу, что следующие «разблокировки» возможностей агентов будут связаны с:

Адам Бинксмит признает: «Инопланетяне высадились на Землю», — имея в виду, что создание систем, способных ставить и достигать долгосрочные цели в реальном мире, стало реальностью быстрее, чем многие ожидали.

💬 Цитаты

«Если бы люди лучше понимали, что существует сегодня, у них был бы более здоровый страх перед тем, что может наступить.»

«Мы имеем дело с неконтролируемой силой.»

«У нас есть зачатки открытых агентов, которые могут просто пойти и что-то сделать в мире.»

Адам Бинксмит 1:21:28
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Multi-agent systems
Системы, состоящие из нескольких автономных ИИ-агентов, взаимодействующих для достижения целей.
Computer Use
Функция, позволяющая модели ИИ видеть экран компьютера и управлять им как человек (клик, набор текста).
Hallucination
Ситуация, когда модель ИИ уверенно выдает ложную или выдуманную информацию за правду.
Giga-agent future
Концепция будущего, где сложные автономные агенты будут выполнять значительную часть работы вместо людей.
📊 Цифры
🗓 Хронология
  1. Начало года Google исследовал поведение LLM в экономических играх.
  2. Сезон 1 Агенты собирали средства на благотворительность.
  3. Сезон 2 Агенты организовали мероприятие и написали интерактивную историю.
⚖️ Другая сторона
Искусственный интеллект AI Village Adam Binksmith Claude 4 multi-agent systems