В новом выпуске Machine Learning Street Talk Тим Скарфе (Tim Scarfe) обсуждает с исследователями Минки Цзяном и Марком Тауэрсом будущее универсальных ИИ-агентов и концепцию открытых систем (open-endedness). В центре беседы — новая работа WAKER, предлагающая алгоритм обучения робастных моделей мира без использования внешнего вознаграждения, что является шагом к созданию по-настоящему общего искусственного интеллекта.
🤖 Проблема универсальности: от узких задач к общим агентам 1:24
Основной вопрос, на который пытается ответить исследование WAKER (Weighted Acquisition of Knowledge across Environments for Robustness) — как обучить агентов, способных выполнять множество различных задач в произвольных средах . В традиционном подходе робот может отлично справляться с уборкой на конкретной кухне, но потерпеть неудачу в любой другой квартире.
По мнению Марка Тауэрса, ключом к универсальности является «модель мира» (world model). Это система, которая может предсказывать последствия последовательностей действий и понимать динамику окружения . Если агент обладает общей моделью мира, он может адаптироваться к новым условиям и задачам гораздо эффективнее, чем системы, обученные под конкретную функцию вознаграждения.
Главные цели обучения универсальных агентов:
- Способность выполнять широкий спектр задач (разные функции вознаграждения).
- Работа в произвольных конфигурациях среды.
- Минимизация зависимости от предопределенных данных.
⚖️ Теория минимаксного сожаления (Minimax Regret) 3:17
Вместо того чтобы оптимизировать среднюю производительность (ожидаемую выгоду), исследователи предлагают использовать концепцию «минимаксного сожаления» из теории принятия решений . Сожаление здесь определяется как субоптимальность — разница между тем, как хорошо агент справился, и тем, как максимально хорошо он мог бы справиться в данной ситуации.
Марк Тауэрс объясняет различия в подходах:
- Стандартная оптимизация: Максимизация среднего вознаграждения. Проблема в том, что агент может игнорировать сложные ситуации, если в большинстве случаев он справляется хорошо .
- Максимин (Maximin): Максимизация результата в худшем случае. Проблема в том, что в некоторых средах успех невозможен в принципе (агент «обречен»), и тогда у системы нет стимула улучшаться где-либо еще .
- Минимаксное сожаление: Минимизация максимального «сожаления». Это заставляет агента стараться делать всё возможное в любой ситуации, даже если идеальный результат недостижим .
Минки Цзян добавляет, что обучение по этому принципу можно представить как игру с нулевой суммой между агентом и «противником» (природой) . Природа выбирает среду, в которой агент ошибается сильнее всего, а агент учится уменьшать этот разрыв в знаниях. Согласно теореме минимакса, в точке равновесия Нэша агент будет реализовывать стратегию минимаксного сожаления .
🌍 Модели мира против обучения без модели (Model-Based vs Model-Free) 6:25
В традиционном обучении с подкреплением (RL) функции ценности часто неявно включают в себя динамику мира через уравнение Беллмана . Однако явное моделирование мира дает ряд преимуществ.
Аргументы в пользу эксплицитных моделей мира:
- Эффективность выборки (Sample Efficiency): Динамике можно учиться на каждом переходе (каждом кадре), тогда как вознаграждение может быть крайне редким .
- Планирование (Online Planning): Модель позволяет «воображать» последствия действий в реальном времени, что критично для таких задач, как игра в го .
- Обобщение (Generalization): Обучение на переходах состояний заставляет модель изучать неявные физические законы мира, которые остаются неизменными в новых сценариях .
Минки Цзян подчеркивает, что в WAKER используется подход «reward-free» (без вознаграждения). Это позволяет разделить функции динамики (как мир меняется) и функции вознаграждения (что нужно сделать) . После того как агент освоил «фундаментальные навыки» взаимодействия с физикой мира, на эту модель можно наложить любую конкретную задачу.
🧠 Скрытые пространства и частичная наблюдаемость (POMDP) 22:34
Мир редко бывает полностью наблюдаемым. Например, по одному кадру нельзя понять скорость объекта. Поэтому современные системы работают с последовательностями наблюдений, используя скрытые (латентные) пространства .
Ключевые технические аспекты:
- POMDP (Частично наблюдаемый марковский процесс принятия решений): Агент использует историю наблюдений для формирования «убеждения» (belief) о текущем состоянии мира .
- Сжатие данных: Модели сжимают изображения в низкоразмерные векторы, игнорируя «визуальный мусор» (например, движение листьев на дереве), который не влияет на физику задачи .
- Предсказание в латентном пространстве: Вместо того чтобы предсказывать каждый пиксель следующего кадра (что вычислительно дорого), модель предсказывает изменения в сжатом представлении .
🚀 Открытые системы (Open-Endedness) и автокуррикулум 37:30
Одной из самых захватывающих идей дискуссии стала концепция самосовершенствующихся систем. Минки Цзян утверждает, что индустрия скоро столкнется с нехваткой данных для обучения («token limit») . Выходом является создание систем, генерирующих собственные данные через бесконечный процесс исследования.
Автоматический учебный план (Auto-curriculum) позволяет системе самостоятельно выбирать задачи, которые не являются слишком простыми (уже изученными) или слишком сложными (невозможными для понимания) . Агент ищет «градиент интересности».
Однако существует проблема «заземления» (grounding). Без связи с реальностью автокуррикулум может уйти в дебри симуляции, создавая задачи, которые физически невозможны или бессмысленны для людей .
Примеры «ловушек» в обучении:
- Обман (Deception): Оптимизация конкретной цели может завести в тупик, если цель не отражает реальный прогресс в знаниях .
- «Шумный телевизор» (Noisy TV): Если агент вознаграждается за непредсказуемость, он может вечно смотреть на статический шум на экране, так как его невозможно предсказать, хотя в нем нет никакой полезной информации .
💬 Рич Саттон и вопрос «Достаточно ли вознаграждения?» 53:57
Тим Скарфе поднимает тему знаменитого эссе Рича Саттона «Reward is Enough». Гости соглашаются, что теоретически вознаграждение может описать любую задачу (даже «хорошую жизнь»), но на практике это перекладывает ответственность на дизайнера системы .
Минки Цзян считает, что «настоящий фронтир» — это системы, которые сами придумывают себе вознаграждения и задают вопросы миру . По его мнению, ИИ сегодня находится в «бизнесе ответов на вопросы» (Q&A), но сильный интеллект (AGI) должен сам искать несоответствия между своими теориями и реальностью .
🏢 Академия против Индустрии: «Горький урок» и масштабирование 1:36:45
Обсуждая текущее состояние ИИ, участники отметили доминирование индустриальных лабораторий. Марк Тауэрс указывает на «горький урок» (Bitter Lesson): простые алгоритмы, которые лучше масштабируются с вычислительными мощностями, обычно побеждают сложные, вручную созданные подходы .
Основные тезисы о разделении труда:
- Индустрия: Фокусируется на эксплуатации (exploitation) — использовании огромных кластеров и данных для улучшения существующих моделей (например, имитационное обучение в робототехнике) .
- Академия: Должна фокусироваться на исследовании (exploration) — поиске принципиально новых алгоритмов, которые станут актуальными, когда текущие методы масштабирования упрутся в потолок .
📊 Результаты работы WAKER 1:50:20
Алгоритм WAKER был протестирован в сложных симуляциях робототехники (локомоция, манипуляция объектами) .
- Система показала значительно более высокую робастность по сравнению со случайной рандомизацией среды .
- Модель успешно обобщает знания на среды с более высокой сложностью, чем те, что она видела при обучении .
- Использование внутренней мотивации (поиск максимальной неопределенности) позволило создать эффективную модель мира без доступа к внешним метрикам успеха .
В завершение Минки Цзян отметил, что его текущая работа в Google DeepMind сосредоточена на изучении того, как ИИ может усиливать человеческое творчество и знания, действуя как инструмент для «расширения горизонтов цивилизации» .