# Алгоритмический парадокс Моравека: как Action Chunking и генеративный контроль изменили робототехнику

Источник: https://www.youtube.com/watch?v=D7e7oUbtkFM
Канал: Stanford Online
Опубликовано: 10.04.2026

---

В современной робототехнике долгое время доминировал парадокс, сформулированный Хансом Моравеком (Hans Moravec): высокоуровневые когнитивные задачи (шахматы, математика) даются ИИ легко, в то время как базовые сенсомоторные навыки (движение, манипуляция объектами) требуют колоссальных вычислительных ресурсов. Однако в 2023 году произошел качественный скачок, позволивший роботам эффективно обучаться сложным физическим действиям через имитацию.

В рамках семинара Stanford Robotics Seminar ENGR319 приглашенный эксперт анализирует математические и алгоритмические причины этого прорыва, развенчивает мифы о роли многомодальности в нейросетях и представляет новый метод — Minimal Iterative Policy (MIP).

## 🤖 Парадокс Моравека и «проклятие горизонта» в обучении роботов
[[JUMP:00:06]]

Исторически роботам было сложнее ориентироваться в физическом мире, чем решать символьные задачи [00:34]. Традиционный подход — клонирование поведения (Behavior Cloning, BC) — существует с 80-х годов, но до недавнего времени он буксовал на сложных манипуляциях. По мнению спикера, «прагматичный» парадокс Моравека заключается в сложности сбора данных: для шахмат есть интернет-архивы, а для складывания футболок данные нужно собирать вручную [02:07].

Однако существует и «алгоритмический» парадокс Моравека. Спикер утверждает, что обучение на демонстрациях в непрерывной среде (робототехника) фундаментально сложнее, чем в дискретной (языковые модели), из-за накопления ошибок [02:47].

Основные проблемы классического подхода:

*   **Экспоненциальное накопление ошибок:** В непрерывном контроле даже малейшее отклонение от траектории эксперта ведет к попаданию в состояния, которых не было в обучающей выборке [07:11].
*   **Неустойчивость замкнутого цикла:** Даже если эксперт и динамика среды стабильны, обученная политика может порождать нестабильность [09:09].
*   **Математический барьер:** Спикер приводит доказательство, что для любой скорости обучения (scaling law) можно создать среду, где классический BC будет демонстрировать экспоненциальный рост ошибки относительно горизонта задачи [12:31].

## 🧱 Инструмент №1: Action Chunking (Группировка действий)
[[JUMP:14:46]]

Одним из ключевых факторов прорыва 2023 года стало внедрение Action Chunking. Вместо того чтобы предсказывать одно действие на каждом шаге (например, с частотой 50 Гц), модель предсказывает последовательность (чанк) действий на будущий период и выполняет их в разомкнутом цикле (open loop) [15:00].

**Технические параметры и логика:**

1.  **Настройка частоты:** Модель предсказывает вектор действий $[a_t, a_{t+1}, \dots, a_{t+k}]$.
2.  **Параметр k (длина чанка):** По результатам тестов, существует критическое значение $k^*$, при котором накопление ошибки перестает зависеть от горизонта задачи [16:19].
3.  **Репараметризация динамики:** Использование позиционного контроля (position control) вместо контроля моментов (torque control) делает систему более стабильной в разомкнутом цикле [19:49].

По мнению спикера, Action Chunking устраняет марковское ограничение политики. Это позволяет «сглаживать» jitter (дрожание) и игнорировать мелкие нестабильности, которые возникают при пошаговом принятии решений [21:10].

## 🌊 Инструмент №2: Генеративные политики и миф о многомодальности
[[JUMP:21:51]]

Второй важной инновацией стали генеративные модели управления (Generative Control Policies, GCP), такие как диффузионные модели и Flow Matching [23:00]. Традиционно считалось, что они нужны для моделирования «многомодальности» — ситуации, когда робот может обойти препятствие и слева, и справа, и модель должна уметь выбирать один из путей, не усредняя их [22:20].

Однако эксперименты команды спикера показали неожиданные результаты:

*   **Многомодальность не обязательна:** Если принудительно «убить» многомодальность на этапе инференса (усреднив 64 параллельных сэмпла), точность робота падает всего на 2% [28:35].
*   **Важность итеративности:** Главное преимущество генеративных моделей не в распределении вероятностей, а в итеративном уточнении действия и инъекции шума при обучении [25:13].
*   **Проекция на манифольд:** Генеративные модели лучше «прижимают» предсказанное действие к области допустимых (экспертных) значений. Спикер называет это «проекцией на манифольд действий» (action manifold projection) [36:33].

## 🛠 Практическое руководство: Метод Minimal Iterative Policy (MIP)
[[JUMP:29:42]]

На основе анализа GCP был предложен минималистичный алгоритм MIP, который дает те же преимущества, что и сложные диффузионные модели, но работает быстрее и проще.

**Алгоритм реализации MIP:**

1.  **Шаг 1 (Регрессия):** Обучите стандартную политику $\pi_{base}(s)$, которая предсказывает действие через MSE (Mean Squared Error).
2.  **Шаг 2 (Коррекция):** Обучите вторую сеть (или ту же с другим эмбеддингом), которая принимает состояние $s$ и зашумленное действие $\hat{a}$, и предсказывает «чистое» экспертное действие [30:07].
3.  **Инференс (применение):**
    *   Получите первое приближение действия от базовой сети.
    *   Используйте его как вход для сети коррекции.
    *   На выходе получите уточненное действие, устойчивое к ошибкам [30:20].

**Преимущества MIP перед классическими Flow-моделями:**

*   **Скорость:** Требуется всего 1–2 шага уточнения вместо десятков шагов в диффузии [30:33].
*   **Точность:** В задачах высокой прецизионности (вставка деталей) MIP превосходит модели консистентности (consistency models), так как напрямую обучается возвращать систему на «путь эксперта» [40:38].

## 🐒 Будущее: Орангутаны против Waymo
[[JUMP:45:18]]

Несмотря на успехи Action Chunking и генеративного контроля, робототехника все еще далека от человеческого (или даже животного) уровня адаптации. Спикер приводит в пример орангутанов, которые способны научиться водить гольф-кар почти мгновенно, обладая огромными врожденными знаниями о 3D-мире и навигации [47:04].

Сравнение эффективности обучения:

*   **Waymo:** Требует колоссального количества вычислительных мощностей (FLOPS) и данных для безопасного вождения.
*   **Орангутан:** Обучается с минимальными затратами энергии (килоджоулей) благодаря сильным индуктивным предубеждениям (inductive biases) [47:18].

Спикер резюмирует, что в краткосрочной перспективе экономически выгоднее просто собирать больше данных для узких задач (коммерциализация), но для создания истинно физического интеллекта науке необходимо понять, как обучаться на редких ситуациях с минимальным количеством примеров [46:38].

---