Уэс Рот: «Claude 3.7 достигает 95% прогресса в самообучении ИИ»

В новом видео Уэс Рот (Wes Roth) анализирует научную работу «Agents of Change», посвященную созданию самосовершенствующегося ИИ-агента для игры в «Колонизаторы» (Settlers of Catan). Автор рассматривает, как архитектура на базе больших языковых моделей (LLM) позволяет ИИ самостоятельно переписывать свой код и промпты, достигая значительных успехов в сложной стратегической среде с элементами неопределенности.

🏗️ Что такое ИИ-агенты и зачем им «строительные леса» 0:00

Уэс Рот начинает с обсуждения терминологии, отмечая, что термин «ИИ-агенты» (AI agents) может быть не самым удачным, но на данный момент он является общепринятым . По словам ведущего, современные агенты строятся на базе больших языковых моделей с использованием так называемого «скаффолдинга» (scaffolding) — программной обвязки или архитектуры, которая позволяет модели писать код, вести заметки и использовать внешние инструменты .

Этот подход уже доказал свою эффективность в ряде знаковых проектов:

Alpha Evolve от Google DeepMind.
Darwin Goal machine — самосовершенствующийся агент для написания кода .
Voyager от Nvidia — агент, который учился играть в Minecraft, самостоятельно создавая библиотеку навыков на JavaScript .

Рот подчеркивает, что «скаффолдинг» — это инструменты, документация и возможности, которые мы даем модели, чтобы она понимала свою задачу и могла улучшать собственные действия .

🎲 «Колонизаторы» как испытание для стратегического мышления 1:17

Выбор игры Settlers of Catan (в России известна как «Колонизаторы») для тестирования ИИ не случаен. По мнению Рота, это сложная игра, сочетающая в себе математику, стратегию и ведение переговоров .

Ведущий выделяет ключевые отличия этой среды от классических шахмат или го:

Тип информации: Шахматы и го — игры с полной информацией, где все состояние доски известно. В «Колонизаторах» присутствует частичная наблюдаемость и элементы случайности (броски кубиков) .
Долгосрочная когерентность: Одной из главных проблем современных LLM является неспособность придерживаться долгосрочных стратегий. Они могут быть эффективны на старте, но со временем «теряют нить повествования» .
Динамика: Агентам необходимо постоянно адаптироваться к действиям оппонентов и меняющимся ресурсам .

Для симуляции игры исследователи использовали Katanatron — открытый фреймворк на языке Python, позволяющий быстро прогонять игровые партии с участием ботов .

🤖 Архитектура «Agents of Change»: четыре роли одного ИИ 7:11

В обсуждаемой работе представлена многоагентная структура, где за разные аспекты самосовершенствования отвечают специализированные роли . Уэс Рот детально разбирает, как функционирует этот «рецепт» эффективного агента:

Analyzer (Анализатор): Оценивает игровой процесс, выявляет слабые места и готовит отчеты для улучшения стратегии .
Researcher (Исследователь): Самый интересный, по мнению Рота, компонент. Этот агент делает поисковые запросы в сети (например, на Reddit), чтобы найти лучшие человеческие стратегии для «Колонизаторов» .
Coder (Кодировщик): Получает предложения по изменениям и переводит их в конкретный программный код, обновляя логику игрока .
Player (Игрок): Непосредственно участвует в матче, используя текущую версию кода и промптов .

Важным элементом успеха системы ведущий считает постоянное напоминание модели о состоянии игрового поля в каждом промпте. По его словам, проекты вроде Vending Bench проваливались именно из-за того, что ИИ со временем забывал контекст, в то время как напоминания (как в Voyager) позволяют сохранять концентрацию на задаче .

💻 Технические детали и ход эксперимента 11:58

Исследование примечательно тем, что оно доступно для воспроизведения. Сбор данных осуществлялся на стандартном оборудовании:

MacBook Pro 2019 (16 ГБ ОЗУ).
MacBook M1 Max 2021 (32 ГБ ОЗУ).
Общее время экспериментов составило около 60 часов .

Для тестирования были выбраны три модели: GPT-4o, Claude 3.7 и Mistral Large (открытая модель через API) . В качестве базового противника использовался классический алгоритм Alpha-Beta Search — сильный логический бот, не использующий нейросети . Чтобы результаты были сопоставимыми, исследователи фиксировали «сиды» (random seeds) для генерации игровых полей .

📈 Результаты: триумф Claude 3.7 и провал Mistral 13:30

Результаты эксперимента наглядно показали, что успех самосовершенствования критически зависит от качества базовой языковой модели .

Основные показатели прогресса (улучшение относительно базового агента):

Claude 3.7 Sonnet: Показала феноменальный результат, достигнув 95% улучшения при использовании эволюции промптов . Модель смогла разработать детальные планы по размещению поселений и расстановке приоритетов в ресурсах .
GPT-4o: Продемонстрировала умеренный прогресс — около 36% улучшения в архитектуре Agent Evolver .
Mistral Large: Оказалась наименее эффективной, показав падение производительности на 31% в некоторых тестах .

Уэс Рот отмечает, что процесс улучшения не останавливался даже к 10-й итерации эволюции, хотя основной рывок происходил в районе 7-го шага . По мнению автора, если бы у исследователей было больше вычислительных ресурсов и времени, результаты могли быть еще более впечатляющими .

🔮 Будущее самообучающегося ИИ 15:34

Завершая обзор, Уэс Рот цитирует Сэма Альтмана: предпринимателям стоит строить бизнес так, чтобы он становился лучше автоматически по мере совершенствования базовых ИИ-моделей . Проект «Agents of Change» является практическим подтверждением этого тезиса.

Ведущий делает следующие выводы:

Рекурсивное самосовершенствование: Мы видим работающий рецепт создания систем, которые автономно диагностируют свои ошибки и исправляют их .
Доступность: Эксперименты такого уровня сложности теперь можно проводить на домашнем ноутбуке за считанные дни .
Игры как полигон: Использование сложных настольных игр позволяет тестировать навыки планирования и теории игр, которые напрямую применимы в бизнесе и программировании .

По словам Рота, мы живем в «захватывающее время», когда ИИ начинает не просто выполнять команды, а самостоятельно искать пути к совершенству .