Алгоритмический парадокс Моравека: как Action Chunking и генеративный контроль изменили робототехнику

В современной робототехнике долгое время доминировал парадокс, сформулированный Хансом Моравеком (Hans Moravec): высокоуровневые когнитивные задачи (шахматы, математика) даются ИИ легко, в то время как базовые сенсомоторные навыки (движение, манипуляция объектами) требуют колоссальных вычислительных ресурсов. Однако в 2023 году произошел качественный скачок, позволивший роботам эффективно обучаться сложным физическим действиям через имитацию.

В рамках семинара Stanford Robotics Seminar ENGR319 приглашенный эксперт анализирует математические и алгоритмические причины этого прорыва, развенчивает мифы о роли многомодальности в нейросетях и представляет новый метод — Minimal Iterative Policy (MIP).

🤖 Парадокс Моравека и «проклятие горизонта» в обучении роботов 0:06

Исторически роботам было сложнее ориентироваться в физическом мире, чем решать символьные задачи . Традиционный подход — клонирование поведения (Behavior Cloning, BC) — существует с 80-х годов, но до недавнего времени он буксовал на сложных манипуляциях. По мнению спикера, «прагматичный» парадокс Моравека заключается в сложности сбора данных: для шахмат есть интернет-архивы, а для складывания футболок данные нужно собирать вручную .

Однако существует и «алгоритмический» парадокс Моравека. Спикер утверждает, что обучение на демонстрациях в непрерывной среде (робототехника) фундаментально сложнее, чем в дискретной (языковые модели), из-за накопления ошибок .

Основные проблемы классического подхода:

Экспоненциальное накопление ошибок: В непрерывном контроле даже малейшее отклонение от траектории эксперта ведет к попаданию в состояния, которых не было в обучающей выборке .
Неустойчивость замкнутого цикла: Даже если эксперт и динамика среды стабильны, обученная политика может порождать нестабильность .
Математический барьер: Спикер приводит доказательство, что для любой скорости обучения (scaling law) можно создать среду, где классический BC будет демонстрировать экспоненциальный рост ошибки относительно горизонта задачи .

🧱 Инструмент №1: Action Chunking (Группировка действий) 14:46

Одним из ключевых факторов прорыва 2023 года стало внедрение Action Chunking. Вместо того чтобы предсказывать одно действие на каждом шаге (например, с частотой 50 Гц), модель предсказывает последовательность (чанк) действий на будущий период и выполняет их в разомкнутом цикле (open loop) .

Технические параметры и логика:

Настройка частоты: Модель предсказывает вектор действий $[a_t, a_{t+1}, \dots, a_{t+k}]$.
Параметр k (длина чанка): По результатам тестов, существует критическое значение $k^*$, при котором накопление ошибки перестает зависеть от горизонта задачи .
Репараметризация динамики: Использование позиционного контроля (position control) вместо контроля моментов (torque control) делает систему более стабильной в разомкнутом цикле .

По мнению спикера, Action Chunking устраняет марковское ограничение политики. Это позволяет «сглаживать» jitter (дрожание) и игнорировать мелкие нестабильности, которые возникают при пошаговом принятии решений .

🌊 Инструмент №2: Генеративные политики и миф о многомодальности 21:51

Второй важной инновацией стали генеративные модели управления (Generative Control Policies, GCP), такие как диффузионные модели и Flow Matching . Традиционно считалось, что они нужны для моделирования «многомодальности» — ситуации, когда робот может обойти препятствие и слева, и справа, и модель должна уметь выбирать один из путей, не усредняя их .

Однако эксперименты команды спикера показали неожиданные результаты:

Многомодальность не обязательна: Если принудительно «убить» многомодальность на этапе инференса (усреднив 64 параллельных сэмпла), точность робота падает всего на 2% .
Важность итеративности: Главное преимущество генеративных моделей не в распределении вероятностей, а в итеративном уточнении действия и инъекции шума при обучении .
Проекция на манифольд: Генеративные модели лучше «прижимают» предсказанное действие к области допустимых (экспертных) значений. Спикер называет это «проекцией на манифольд действий» (action manifold projection) .

🛠 Практическое руководство: Метод Minimal Iterative Policy (MIP) 29:42

На основе анализа GCP был предложен минималистичный алгоритм MIP, который дает те же преимущества, что и сложные диффузионные модели, но работает быстрее и проще.

Алгоритм реализации MIP:

Шаг 1 (Регрессия): Обучите стандартную политику $\pi_{base}(s)$, которая предсказывает действие через MSE (Mean Squared Error).
Шаг 2 (Коррекция): Обучите вторую сеть (или ту же с другим эмбеддингом), которая принимает состояние $s$ и зашумленное действие $\hat{a}$, и предсказывает «чистое» экспертное действие .
Инференс (применение):
- Получите первое приближение действия от базовой сети.
- Используйте его как вход для сети коррекции.
- На выходе получите уточненное действие, устойчивое к ошибкам .

Преимущества MIP перед классическими Flow-моделями:

Скорость: Требуется всего 1–2 шага уточнения вместо десятков шагов в диффузии .
Точность: В задачах высокой прецизионности (вставка деталей) MIP превосходит модели консистентности (consistency models), так как напрямую обучается возвращать систему на «путь эксперта» .

🐒 Будущее: Орангутаны против Waymo 45:18

Несмотря на успехи Action Chunking и генеративного контроля, робототехника все еще далека от человеческого (или даже животного) уровня адаптации. Спикер приводит в пример орангутанов, которые способны научиться водить гольф-кар почти мгновенно, обладая огромными врожденными знаниями о 3D-мире и навигации .

Сравнение эффективности обучения:

Waymo: Требует колоссального количества вычислительных мощностей (FLOPS) и данных для безопасного вождения.
Орангутан: Обучается с минимальными затратами энергии (килоджоулей) благодаря сильным индуктивным предубеждениям (inductive biases) .

Спикер резюмирует, что в краткосрочной перспективе экономически выгоднее просто собирать больше данных для узких задач (коммерциализация), но для создания истинно физического интеллекта науке необходимо понять, как обучаться на редких ситуациях с минимальным количеством примеров .