Минки Цзян: «Следующий фронтир ИИ — это системы, которые сами задают вопросы»

Machine Learning Street Talk 26 тыс. 1 ч 57 мин 5 мин 20.03.2024
Главное

В новом выпуске Machine Learning Street Talk Тим Скарфе (Tim Scarfe) обсуждает с исследователями Минки Цзяном и Марком Тауэрсом будущее универсальных ИИ-агентов и концепцию открытых систем (open-endedness). В центре беседы — новая работа WAKER, предлагающая алгоритм обучения робастных моделей мира без использования внешнего вознаграждения, что является шагом к созданию по-настоящему общего искусственного интеллекта.

🤖 Проблема универсальности: от узких задач к общим агентам 1:24

Основной вопрос, на который пытается ответить исследование WAKER (Weighted Acquisition of Knowledge across Environments for Robustness) — как обучить агентов, способных выполнять множество различных задач в произвольных средах . В традиционном подходе робот может отлично справляться с уборкой на конкретной кухне, но потерпеть неудачу в любой другой квартире.

По мнению Марка Тауэрса, ключом к универсальности является «модель мира» (world model). Это система, которая может предсказывать последствия последовательностей действий и понимать динамику окружения . Если агент обладает общей моделью мира, он может адаптироваться к новым условиям и задачам гораздо эффективнее, чем системы, обученные под конкретную функцию вознаграждения.

Главные цели обучения универсальных агентов:

⚖️ Теория минимаксного сожаления (Minimax Regret) 3:17

Вместо того чтобы оптимизировать среднюю производительность (ожидаемую выгоду), исследователи предлагают использовать концепцию «минимаксного сожаления» из теории принятия решений . Сожаление здесь определяется как субоптимальность — разница между тем, как хорошо агент справился, и тем, как максимально хорошо он мог бы справиться в данной ситуации.

Марк Тауэрс объясняет различия в подходах:

  1. Стандартная оптимизация: Максимизация среднего вознаграждения. Проблема в том, что агент может игнорировать сложные ситуации, если в большинстве случаев он справляется хорошо .
  2. Максимин (Maximin): Максимизация результата в худшем случае. Проблема в том, что в некоторых средах успех невозможен в принципе (агент «обречен»), и тогда у системы нет стимула улучшаться где-либо еще .
  3. Минимаксное сожаление: Минимизация максимального «сожаления». Это заставляет агента стараться делать всё возможное в любой ситуации, даже если идеальный результат недостижим .

Минки Цзян добавляет, что обучение по этому принципу можно представить как игру с нулевой суммой между агентом и «противником» (природой) . Природа выбирает среду, в которой агент ошибается сильнее всего, а агент учится уменьшать этот разрыв в знаниях. Согласно теореме минимакса, в точке равновесия Нэша агент будет реализовывать стратегию минимаксного сожаления .

🌍 Модели мира против обучения без модели (Model-Based vs Model-Free) 6:25

В традиционном обучении с подкреплением (RL) функции ценности часто неявно включают в себя динамику мира через уравнение Беллмана . Однако явное моделирование мира дает ряд преимуществ.

Аргументы в пользу эксплицитных моделей мира:

Минки Цзян подчеркивает, что в WAKER используется подход «reward-free» (без вознаграждения). Это позволяет разделить функции динамики (как мир меняется) и функции вознаграждения (что нужно сделать) . После того как агент освоил «фундаментальные навыки» взаимодействия с физикой мира, на эту модель можно наложить любую конкретную задачу.

🧠 Скрытые пространства и частичная наблюдаемость (POMDP) 22:34

Мир редко бывает полностью наблюдаемым. Например, по одному кадру нельзя понять скорость объекта. Поэтому современные системы работают с последовательностями наблюдений, используя скрытые (латентные) пространства .

Ключевые технические аспекты:

🚀 Открытые системы (Open-Endedness) и автокуррикулум 37:30

Одной из самых захватывающих идей дискуссии стала концепция самосовершенствующихся систем. Минки Цзян утверждает, что индустрия скоро столкнется с нехваткой данных для обучения («token limit») . Выходом является создание систем, генерирующих собственные данные через бесконечный процесс исследования.

Автоматический учебный план (Auto-curriculum) позволяет системе самостоятельно выбирать задачи, которые не являются слишком простыми (уже изученными) или слишком сложными (невозможными для понимания) . Агент ищет «градиент интересности».

Однако существует проблема «заземления» (grounding). Без связи с реальностью автокуррикулум может уйти в дебри симуляции, создавая задачи, которые физически невозможны или бессмысленны для людей .

Примеры «ловушек» в обучении:

💬 Рич Саттон и вопрос «Достаточно ли вознаграждения?» 53:57

Тим Скарфе поднимает тему знаменитого эссе Рича Саттона «Reward is Enough». Гости соглашаются, что теоретически вознаграждение может описать любую задачу (даже «хорошую жизнь»), но на практике это перекладывает ответственность на дизайнера системы .

Минки Цзян считает, что «настоящий фронтир» — это системы, которые сами придумывают себе вознаграждения и задают вопросы миру . По его мнению, ИИ сегодня находится в «бизнесе ответов на вопросы» (Q&A), но сильный интеллект (AGI) должен сам искать несоответствия между своими теориями и реальностью .

🏢 Академия против Индустрии: «Горький урок» и масштабирование 1:36:45

Обсуждая текущее состояние ИИ, участники отметили доминирование индустриальных лабораторий. Марк Тауэрс указывает на «горький урок» (Bitter Lesson): простые алгоритмы, которые лучше масштабируются с вычислительными мощностями, обычно побеждают сложные, вручную созданные подходы .

Основные тезисы о разделении труда:

📊 Результаты работы WAKER 1:50:20

Алгоритм WAKER был протестирован в сложных симуляциях робототехники (локомоция, манипуляция объектами) .

  1. Система показала значительно более высокую робастность по сравнению со случайной рандомизацией среды .
  2. Модель успешно обобщает знания на среды с более высокой сложностью, чем те, что она видела при обучении .
  3. Использование внутренней мотивации (поиск максимальной неопределенности) позволило создать эффективную модель мира без доступа к внешним метрикам успеха .

В завершение Минки Цзян отметил, что его текущая работа в Google DeepMind сосредоточена на изучении того, как ИИ может усиливать человеческое творчество и знания, действуя как инструмент для «расширения горизонтов цивилизации» .

💬 Цитаты

«Следующий фронтир ИИ — это дизайн систем, которые не просто отвечают на вопросы, а сами начинают их задавать.»

Минки Цзян 46:18

«Интеллект — это открытие знаний, а знания и есть функция вознаграждения.»

«Если вы можете предсказать результат любого действия при любой последовательности наблюдений, вы действительно понимаете, как устроен мир.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Минимаксное сожаление
Принцип принятия решений, направленный на минимизацию максимальной разницы между полученным результатом и наилучшим возможным.
Модель мира (World Model)
Компонент ИИ-агента, который предсказывает будущее состояние среды на основе текущего состояния и выбранного действия.
POMDP
Частично наблюдаемый марковский процесс принятия решений — математическая модель ситуации, где агент не видит полной информации о системе.
Автокуррикулум
Автоматически генерируемая учебная программа, где сложность задач адаптируется под текущий уровень умений агента.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект WAKER Minimax Regret World Models Open-endedness Reinforcement Learning