Stanford CS224R: Как иерархический ИИ решает задачи с длинным горизонтом

Stanford Online 2,9 тыс. 1 ч 9 мин 4 мин 08.12.2025
Главное

В рамках курса Stanford CS224R по глубокому обучению с подкреплением (Deep Reinforcement Learning) пятнадцатая лекция была посвящена одной из самых сложных проблем в робототехнике и ИИ — решению задач с длинным горизонтом планирования. Инструктор подробно разобрал, почему традиционные «плоские» (flat) нейросетевые политики пасуют перед сложными последовательностями действий и как иерархический подход позволяет имитировать человеческое планирование.

🏗️ Проблема длинного горизонта и суть иерархии 0:05

Задачи с длинным горизонтом — это процессы, состоящие из множества взаимозависимых этапов, такие как приготовление еды, ремонт программного кода или автономное вождение на большие расстояния . По мнению лектора, главная сложность здесь заключается в огромном распределении состояний, которые должен посетить агент. Любая ошибка на раннем этапе может стать фатальной, а отсутствие прогресса часто приводит к «зацикливанию» политики в одном и том же состоянии .

Иерархическое обучение с подкреплением (HRL) предлагает разбить одну сложную задачу на несколько уровней:

Ключевое различие между ними — частота работы. Если низкоуровневая политика может работать на частоте 20 Гц (управление моторами робота) или пословно (в LLM), то высокоуровневая политика принимает решения гораздо реже — на уровне завершенных этапов или абзацев текста .

🧠 Почему иерархия эффективнее обычных моделей? 12:39

Лектор выделяет несколько фундаментальных преимуществ иерархического подхода перед стандартными «плоскими» политиками:

  1. Промежуточный надзор (Intermediate Supervision): Вместо того чтобы ждать редкой награды в самом конце (например, когда торт уже испечен), система получает сигналы за выполнение подзадач («нашел кастрюлю», «вскипятил воду») .
  2. Обмен знаниями: Низкоуровневая политика может использовать опыт, полученный в одной подзадаче, для ускорения обучения в другой, если они имеют схожую структуру .
  3. Структурированное исследование (Exploration): В RL-задачах агент исследует мир не на уровне случайных движений «джойстиком», а на уровне логичных высокоуровневых целей .
  4. Вычислительная эффективность: Сложные рассуждения (reasoning) происходят на низкой частоте, что экономит ресурсы .

В качестве альтернативы иерархии лектор упоминает метод «цепочки рассуждений» (Chain of Thought), где модель сначала проговаривает цель, а затем выполняет действие . Однако, по словам инструктора, эмпирических доказательств превосходства этого метода над чистой иерархией в робототехнике пока недостаточно .

🛠️ Дизайн-решения: Представление целей и выбор абстракций 19:27

Выбор того, как именно кодировать промежуточные цели, критически зависит от домена. В ходе лекции были рассмотрены следующие варианты:

Инструктор подчеркивает, что важно выбрать правильный уровень абстракции. Цель «нажми на педаль с силой X» слишком детализирована для верхнего уровня, а «стань лучшим поваром» — слишком абстрактна для управления манипулятором .

📉 Проблема «стыковки» уровней и надзор 25:52

Одной из самых острых проблем HRL является несогласованность уровней. Если обучать высокоуровневую и низкоуровневую политики отдельно, возникает «разрыв» в распределении состояний .

Например, если низкоуровневый навык «поиск пасты» обучался только из состояния «стоя у плиты», а высокоуровневая политика привела робота в состояние «стоя у холодильника», система сломается . По мнению лектора, для стабильной работы необходимо:

⏱️ Когда пора менять цель? 38:47

Существует два основных подхода к тому, когда высокоуровневая политика должна выдавать новую команду:

  1. По завершении (On completion): Низкоуровневая модель сама предсказывает индикатор успеха или прогресса . Это эффективно, но опасно: если классификатор успеха ошибется и решит, что задача не выполнена (хотя это не так), агент застрянет навсегда .
  2. Фиксированный интервал (Fixed timesteps): Пересмотр целей происходит каждые $N$ шагов (например, раз в секунду) .

Инструктор отмечает, что, несмотря на некоторую вычислительную избыточность, второй вариант (фиксированный интервал) чаще используется на практике, так как ошибки в нем менее фатальны для выполнения задачи .

🤖 Практические примеры систем: От текста до диффузии 45:17

Лектор разобрал несколько современных архитектур, представленных за последние несколько месяцев.

Иерархическое подражание с языковыми целями

В этом подходе демонстрации человека сегментируются и размечаются текстовыми метками («взял пакет», «насыпал M&Ms») . Для улучшения системы используется алгоритм DAgger (Dataset Aggregation) в пространстве языка. Инструктор показал пример, где оператор голосом корректирует высокоуровневую политику в реальном времени, если видит, что робот вот-вот совершит ошибку . Согласно приведенным данным, использование иерархии дает 34% прирост эффективности в задачах с длинным горизонтом по сравнению с плоскими моделями .

Изображения как цели и диффузионные модели 55:52

Вместо слов высокоуровневая политика может генерировать изображение будущего состояния (Goal Image) . Здесь используются генеративные модели (например, Diffusion models), которые «дорисовывают» текущую сцену до желаемого результата . Преимущество этого метода в том, что для обучения можно использовать неразмеченные видео из YouTube — модель учится понимать динамику мира, наблюдая за людьми .

Обучение с подкреплением и «релейблинг» 1:05:16

В классическом RL иерархия часто реализуется через Hindsight Relabeling (переименование целей задним числом). Если агент не достиг поставленной цели, но достиг чего-то другого, мы делаем вид, что именно это и было его целью . Это позволяет эффективно обучаться даже при очень редких наградах. Также ведутся активные исследования в области автоматического обнаружения навыков (Skill Discovery) без участия человека, однако их масштабирование на сложные задачи остается открытым вопросом .

💬 Цитаты

«Если вы не думаете критически о том, почему ваш новый метод должен работать лучше существующих, вы не увидите реальных преимуществ.»

Инструктор Stanford (Челси Финн) 30:02

«Иерархия позволяет запускать энергозатратные рассуждения на низкой частоте, сохраняя при этом высокую частоту управления моторами.»

Инструктор Stanford (Челси Финн) 15:09
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Long-horizon tasks
Задачи, требующие выполнения длинной последовательности действий, где успех зависит от каждого шага.
DAgger
Алгоритм агрегации набора данных, позволяющий дообучать модель на основе коррекций эксперта в процессе работы.
Hindsight Relabeling
Техника в RL, при которой неудачный опыт переосмысливается как успешное достижение альтернативной цели.
Diffusion Model
Тип генеративной модели, используемый здесь для создания реалистичных изображений промежуточных целей робота.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Stanford Online Reinforcement Learning DAgger Diffusion Models Hierarchical RL