Уэс Рот: «Claude 3.7 достигает 95% прогресса в самообучении ИИ»

Wes Roth 29,4 тыс. 18 мин 4 мин 13.06.2025
Главное

В новом видео Уэс Рот (Wes Roth) анализирует научную работу «Agents of Change», посвященную созданию самосовершенствующегося ИИ-агента для игры в «Колонизаторы» (Settlers of Catan). Автор рассматривает, как архитектура на базе больших языковых моделей (LLM) позволяет ИИ самостоятельно переписывать свой код и промпты, достигая значительных успехов в сложной стратегической среде с элементами неопределенности.

🏗️ Что такое ИИ-агенты и зачем им «строительные леса» 0:00

Уэс Рот начинает с обсуждения терминологии, отмечая, что термин «ИИ-агенты» (AI agents) может быть не самым удачным, но на данный момент он является общепринятым . По словам ведущего, современные агенты строятся на базе больших языковых моделей с использованием так называемого «скаффолдинга» (scaffolding) — программной обвязки или архитектуры, которая позволяет модели писать код, вести заметки и использовать внешние инструменты .

Этот подход уже доказал свою эффективность в ряде знаковых проектов:

Рот подчеркивает, что «скаффолдинг» — это инструменты, документация и возможности, которые мы даем модели, чтобы она понимала свою задачу и могла улучшать собственные действия .

🎲 «Колонизаторы» как испытание для стратегического мышления 1:17

Выбор игры Settlers of Catan (в России известна как «Колонизаторы») для тестирования ИИ не случаен. По мнению Рота, это сложная игра, сочетающая в себе математику, стратегию и ведение переговоров .

Ведущий выделяет ключевые отличия этой среды от классических шахмат или го:

  1. Тип информации: Шахматы и го — игры с полной информацией, где все состояние доски известно. В «Колонизаторах» присутствует частичная наблюдаемость и элементы случайности (броски кубиков) .
  2. Долгосрочная когерентность: Одной из главных проблем современных LLM является неспособность придерживаться долгосрочных стратегий. Они могут быть эффективны на старте, но со временем «теряют нить повествования» .
  3. Динамика: Агентам необходимо постоянно адаптироваться к действиям оппонентов и меняющимся ресурсам .

Для симуляции игры исследователи использовали Katanatron — открытый фреймворк на языке Python, позволяющий быстро прогонять игровые партии с участием ботов .

🤖 Архитектура «Agents of Change»: четыре роли одного ИИ 7:11

В обсуждаемой работе представлена многоагентная структура, где за разные аспекты самосовершенствования отвечают специализированные роли . Уэс Рот детально разбирает, как функционирует этот «рецепт» эффективного агента:

Важным элементом успеха системы ведущий считает постоянное напоминание модели о состоянии игрового поля в каждом промпте. По его словам, проекты вроде Vending Bench проваливались именно из-за того, что ИИ со временем забывал контекст, в то время как напоминания (как в Voyager) позволяют сохранять концентрацию на задаче .

💻 Технические детали и ход эксперимента 11:58

Исследование примечательно тем, что оно доступно для воспроизведения. Сбор данных осуществлялся на стандартном оборудовании:

Для тестирования были выбраны три модели: GPT-4o, Claude 3.7 и Mistral Large (открытая модель через API) . В качестве базового противника использовался классический алгоритм Alpha-Beta Search — сильный логический бот, не использующий нейросети . Чтобы результаты были сопоставимыми, исследователи фиксировали «сиды» (random seeds) для генерации игровых полей .

📈 Результаты: триумф Claude 3.7 и провал Mistral 13:30

Результаты эксперимента наглядно показали, что успех самосовершенствования критически зависит от качества базовой языковой модели .

Основные показатели прогресса (улучшение относительно базового агента):

Уэс Рот отмечает, что процесс улучшения не останавливался даже к 10-й итерации эволюции, хотя основной рывок происходил в районе 7-го шага . По мнению автора, если бы у исследователей было больше вычислительных ресурсов и времени, результаты могли быть еще более впечатляющими .

🔮 Будущее самообучающегося ИИ 15:34

Завершая обзор, Уэс Рот цитирует Сэма Альтмана: предпринимателям стоит строить бизнес так, чтобы он становился лучше автоматически по мере совершенствования базовых ИИ-моделей . Проект «Agents of Change» является практическим подтверждением этого тезиса.

Ведущий делает следующие выводы:

  1. Рекурсивное самосовершенствование: Мы видим работающий рецепт создания систем, которые автономно диагностируют свои ошибки и исправляют их .
  2. Доступность: Эксперименты такого уровня сложности теперь можно проводить на домашнем ноутбуке за считанные дни .
  3. Игры как полигон: Использование сложных настольных игр позволяет тестировать навыки планирования и теории игр, которые напрямую применимы в бизнесе и программировании .

По словам Рота, мы живем в «захватывающее время», когда ИИ начинает не просто выполнять команды, а самостоятельно искать пути к совершенству .

💬 Цитаты

«Мы берем большую языковую модель и создаем вокруг нее «строительные леса» — архитектуру, которая позволяет ей играть в игру, писать код и делать заметки.»

«Claude 3.7 продемонстрировала наиболее значительные стратегические достижения, систематически разрабатывая детальные промпты с четкими планами.»

«Вы не хотите чинить то, что сейчас не так с ИИ. Вы хотите создать систему, где чем лучше становятся модели, тем лучше работает весь ваш бизнес.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Скаффолдинг (Scaffolding)
Внешняя программная структура вокруг языковой модели, предоставляющая ей доступ к инструментам, памяти и выполнению кода.
Partial observability
Состояние игры, при котором игроку видна лишь часть информации, а остальные данные скрыты (например, карты на руках противников).
Prompt Evolver
Специализированный ИИ-агент, задача которого — тестировать и переписывать текстовые инструкции (промпты) для улучшения работы другого агента.
Alpha-beta search
Классический алгоритм поиска в дереве игровых решений, используемый для отсечения заведомо плохих вариантов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Claude 3.7 GPT-4o Settlers of Catan Katanatron Wes Roth