Алгоритмический парадокс Моравека: как Action Chunking и генеративный контроль изменили робототехнику

Stanford Online 4,3 тыс. 53 мин 4 мин 10.04.2026
Главное

В современной робототехнике долгое время доминировал парадокс, сформулированный Хансом Моравеком (Hans Moravec): высокоуровневые когнитивные задачи (шахматы, математика) даются ИИ легко, в то время как базовые сенсомоторные навыки (движение, манипуляция объектами) требуют колоссальных вычислительных ресурсов. Однако в 2023 году произошел качественный скачок, позволивший роботам эффективно обучаться сложным физическим действиям через имитацию.

В рамках семинара Stanford Robotics Seminar ENGR319 приглашенный эксперт анализирует математические и алгоритмические причины этого прорыва, развенчивает мифы о роли многомодальности в нейросетях и представляет новый метод — Minimal Iterative Policy (MIP).

🤖 Парадокс Моравека и «проклятие горизонта» в обучении роботов 0:06

Исторически роботам было сложнее ориентироваться в физическом мире, чем решать символьные задачи . Традиционный подход — клонирование поведения (Behavior Cloning, BC) — существует с 80-х годов, но до недавнего времени он буксовал на сложных манипуляциях. По мнению спикера, «прагматичный» парадокс Моравека заключается в сложности сбора данных: для шахмат есть интернет-архивы, а для складывания футболок данные нужно собирать вручную .

Однако существует и «алгоритмический» парадокс Моравека. Спикер утверждает, что обучение на демонстрациях в непрерывной среде (робототехника) фундаментально сложнее, чем в дискретной (языковые модели), из-за накопления ошибок .

Основные проблемы классического подхода:

🧱 Инструмент №1: Action Chunking (Группировка действий) 14:46

Одним из ключевых факторов прорыва 2023 года стало внедрение Action Chunking. Вместо того чтобы предсказывать одно действие на каждом шаге (например, с частотой 50 Гц), модель предсказывает последовательность (чанк) действий на будущий период и выполняет их в разомкнутом цикле (open loop) .

Технические параметры и логика:

  1. Настройка частоты: Модель предсказывает вектор действий $[a_t, a_{t+1}, \dots, a_{t+k}]$.
  2. Параметр k (длина чанка): По результатам тестов, существует критическое значение $k^*$, при котором накопление ошибки перестает зависеть от горизонта задачи .
  3. Репараметризация динамики: Использование позиционного контроля (position control) вместо контроля моментов (torque control) делает систему более стабильной в разомкнутом цикле .

По мнению спикера, Action Chunking устраняет марковское ограничение политики. Это позволяет «сглаживать» jitter (дрожание) и игнорировать мелкие нестабильности, которые возникают при пошаговом принятии решений .

🌊 Инструмент №2: Генеративные политики и миф о многомодальности 21:51

Второй важной инновацией стали генеративные модели управления (Generative Control Policies, GCP), такие как диффузионные модели и Flow Matching . Традиционно считалось, что они нужны для моделирования «многомодальности» — ситуации, когда робот может обойти препятствие и слева, и справа, и модель должна уметь выбирать один из путей, не усредняя их .

Однако эксперименты команды спикера показали неожиданные результаты:

🛠 Практическое руководство: Метод Minimal Iterative Policy (MIP) 29:42

На основе анализа GCP был предложен минималистичный алгоритм MIP, который дает те же преимущества, что и сложные диффузионные модели, но работает быстрее и проще.

Алгоритм реализации MIP:

  1. Шаг 1 (Регрессия): Обучите стандартную политику $\pi_{base}(s)$, которая предсказывает действие через MSE (Mean Squared Error).
  2. Шаг 2 (Коррекция): Обучите вторую сеть (или ту же с другим эмбеддингом), которая принимает состояние $s$ и зашумленное действие $\hat{a}$, и предсказывает «чистое» экспертное действие .
  3. Инференс (применение):
    • Получите первое приближение действия от базовой сети.
    • Используйте его как вход для сети коррекции.
    • На выходе получите уточненное действие, устойчивое к ошибкам .

Преимущества MIP перед классическими Flow-моделями:

🐒 Будущее: Орангутаны против Waymo 45:18

Несмотря на успехи Action Chunking и генеративного контроля, робототехника все еще далека от человеческого (или даже животного) уровня адаптации. Спикер приводит в пример орангутанов, которые способны научиться водить гольф-кар почти мгновенно, обладая огромными врожденными знаниями о 3D-мире и навигации .

Сравнение эффективности обучения:

Спикер резюмирует, что в краткосрочной перспективе экономически выгоднее просто собирать больше данных для узких задач (коммерциализация), но для создания истинно физического интеллекта науке необходимо понять, как обучаться на редких ситуациях с минимальным количеством примеров .


💬 Цитаты

«Если бы венчурный капиталист выделил нам 10 миллиардов долларов на сбор данных, возможно, нам не понадобились бы все эти алгоритмические ухищрения.»

«Орангутаны могут водить гольф-кары. Это невероятно. Если сравнить количество операций (FLOPS), затраченных орангутаном и системой Waymo, нам станет неловко.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Action Chunking
Техника, при которой робот предсказывает и выполняет последовательность действий за один раз, а не одно действие на каждом временном шаге.
Behavior Cloning (BC)
Метод обучения роботов путем имитации действий человека-эксперта на основе собранных данных.
Flow Matching
Метод обучения генеративных моделей, основанный на непрерывном преобразовании шума в целевое распределение через векторные поля.
Minimal Iterative Policy (MIP)
Упрощенный алгоритм управления, использующий один шаг регрессии и один шаг итеративной коррекции для повышения точности.
📊 Цифры
🗓 Хронология
  1. Конец 1980-х Первые попытки использования Behavior Cloning, мотивированные разработкой беспилотных автомобилей.
  2. Начало 2000-х Возрождение интереса к Behavior Cloning в контексте манипуляционной робототехники.
  3. 2023 Инфлексионная точка: качественный скачок в возможностях роботов благодаря новым алгоритмам и масштабированию данных.
⚖️ Другая сторона
Инженерия Hans Moravec Action Chunking Behavior Cloning Stanford University Minimal Iterative Policy