В современной робототехнике долгое время доминировал парадокс, сформулированный Хансом Моравеком (Hans Moravec): высокоуровневые когнитивные задачи (шахматы, математика) даются ИИ легко, в то время как базовые сенсомоторные навыки (движение, манипуляция объектами) требуют колоссальных вычислительных ресурсов. Однако в 2023 году произошел качественный скачок, позволивший роботам эффективно обучаться сложным физическим действиям через имитацию.
В рамках семинара Stanford Robotics Seminar ENGR319 приглашенный эксперт анализирует математические и алгоритмические причины этого прорыва, развенчивает мифы о роли многомодальности в нейросетях и представляет новый метод — Minimal Iterative Policy (MIP).
🤖 Парадокс Моравека и «проклятие горизонта» в обучении роботов 0:06
Исторически роботам было сложнее ориентироваться в физическом мире, чем решать символьные задачи . Традиционный подход — клонирование поведения (Behavior Cloning, BC) — существует с 80-х годов, но до недавнего времени он буксовал на сложных манипуляциях. По мнению спикера, «прагматичный» парадокс Моравека заключается в сложности сбора данных: для шахмат есть интернет-архивы, а для складывания футболок данные нужно собирать вручную .
Однако существует и «алгоритмический» парадокс Моравека. Спикер утверждает, что обучение на демонстрациях в непрерывной среде (робототехника) фундаментально сложнее, чем в дискретной (языковые модели), из-за накопления ошибок .
Основные проблемы классического подхода:
- Экспоненциальное накопление ошибок: В непрерывном контроле даже малейшее отклонение от траектории эксперта ведет к попаданию в состояния, которых не было в обучающей выборке .
- Неустойчивость замкнутого цикла: Даже если эксперт и динамика среды стабильны, обученная политика может порождать нестабильность .
- Математический барьер: Спикер приводит доказательство, что для любой скорости обучения (scaling law) можно создать среду, где классический BC будет демонстрировать экспоненциальный рост ошибки относительно горизонта задачи .
🧱 Инструмент №1: Action Chunking (Группировка действий) 14:46
Одним из ключевых факторов прорыва 2023 года стало внедрение Action Chunking. Вместо того чтобы предсказывать одно действие на каждом шаге (например, с частотой 50 Гц), модель предсказывает последовательность (чанк) действий на будущий период и выполняет их в разомкнутом цикле (open loop) .
Технические параметры и логика:
- Настройка частоты: Модель предсказывает вектор действий $[a_t, a_{t+1}, \dots, a_{t+k}]$.
- Параметр k (длина чанка): По результатам тестов, существует критическое значение $k^*$, при котором накопление ошибки перестает зависеть от горизонта задачи .
- Репараметризация динамики: Использование позиционного контроля (position control) вместо контроля моментов (torque control) делает систему более стабильной в разомкнутом цикле .
По мнению спикера, Action Chunking устраняет марковское ограничение политики. Это позволяет «сглаживать» jitter (дрожание) и игнорировать мелкие нестабильности, которые возникают при пошаговом принятии решений .
🌊 Инструмент №2: Генеративные политики и миф о многомодальности 21:51
Второй важной инновацией стали генеративные модели управления (Generative Control Policies, GCP), такие как диффузионные модели и Flow Matching . Традиционно считалось, что они нужны для моделирования «многомодальности» — ситуации, когда робот может обойти препятствие и слева, и справа, и модель должна уметь выбирать один из путей, не усредняя их .
Однако эксперименты команды спикера показали неожиданные результаты:
- Многомодальность не обязательна: Если принудительно «убить» многомодальность на этапе инференса (усреднив 64 параллельных сэмпла), точность робота падает всего на 2% .
- Важность итеративности: Главное преимущество генеративных моделей не в распределении вероятностей, а в итеративном уточнении действия и инъекции шума при обучении .
- Проекция на манифольд: Генеративные модели лучше «прижимают» предсказанное действие к области допустимых (экспертных) значений. Спикер называет это «проекцией на манифольд действий» (action manifold projection) .
🛠 Практическое руководство: Метод Minimal Iterative Policy (MIP) 29:42
На основе анализа GCP был предложен минималистичный алгоритм MIP, который дает те же преимущества, что и сложные диффузионные модели, но работает быстрее и проще.
Алгоритм реализации MIP:
- Шаг 1 (Регрессия): Обучите стандартную политику $\pi_{base}(s)$, которая предсказывает действие через MSE (Mean Squared Error).
- Шаг 2 (Коррекция): Обучите вторую сеть (или ту же с другим эмбеддингом), которая принимает состояние $s$ и зашумленное действие $\hat{a}$, и предсказывает «чистое» экспертное действие .
- Инференс (применение):
Преимущества MIP перед классическими Flow-моделями:
- Скорость: Требуется всего 1–2 шага уточнения вместо десятков шагов в диффузии .
- Точность: В задачах высокой прецизионности (вставка деталей) MIP превосходит модели консистентности (consistency models), так как напрямую обучается возвращать систему на «путь эксперта» .
🐒 Будущее: Орангутаны против Waymo 45:18
Несмотря на успехи Action Chunking и генеративного контроля, робототехника все еще далека от человеческого (или даже животного) уровня адаптации. Спикер приводит в пример орангутанов, которые способны научиться водить гольф-кар почти мгновенно, обладая огромными врожденными знаниями о 3D-мире и навигации .
Сравнение эффективности обучения:
- Waymo: Требует колоссального количества вычислительных мощностей (FLOPS) и данных для безопасного вождения.
- Орангутан: Обучается с минимальными затратами энергии (килоджоулей) благодаря сильным индуктивным предубеждениям (inductive biases) .
Спикер резюмирует, что в краткосрочной перспективе экономически выгоднее просто собирать больше данных для узких задач (коммерциализация), но для создания истинно физического интеллекта науке необходимо понять, как обучаться на редких ситуациях с минимальным количеством примеров .