В последние годы область обучения роботов (Robot Learning) совершила качественный скачок благодаря переносу подходов из мира больших языковых моделей на физические системы. Однако, несмотря на успехи таких проектов, как Aloha или Diffusion Policy, исследователи сталкиваются с фундаментальной проблемой: как сбалансировать плавность движений робота и его способность мгновенно реагировать на изменения в окружающей среде.
В рамках семинара Стэнфордского университета Ян (Yang), постдок из лаборатории профессора Челси Финн (Chelsea Finn), представил новые методы преодоления ограничений традиционного «пакетирования действий» (action chunking), которые позволяют роботам действовать более адаптивно и эффективно.
🤖 Проблема «пакетирования действий» в робототехнике 0:10
Современный стандарт обучения роботов на основе демонстраций (LfD) предполагает сбор огромных массивов данных и обучение нейросетей, часто использующих генеративные подходы, такие как диффузия или Flow Matching . По словам Яна, ключевым отличием робототехники от языковых моделей является использование Action Chunking — группировки нескольких последовательных действий в одно решение .
В то время как текстовые модели предсказывают по одному токену за раз, роботы часто выдают длинную последовательность действий (chunk) и исполняют её целиком. По мнению спикера, этот подход порождает внутреннее противоречие:
- Преимущества: «Пакетирование» критически важно для передачи долгосрочных временных зависимостей и плавности движений . Это позволяет моделировать скрытые внутренние состояния человека-эксперта (его стиль, предпочтения, локальные стратегии) .
- Недостатки: Чем длиннее «пакет» действий, тем хуже реактивность. Если объект в кадре сдвинется, пока робот исполняет предзаписанную последовательность, он не сможет среагировать до начала следующего цикла планирования .
Ян отмечает, что короткие пакеты делают робота реактивным, но заставляют его «осциллировать» — метаться между разными стратегиями из-за отсутствия долгосрочного контекста .
🔄 Двунаправленное декодирование: реактивность без потери плавности 6:50
Чтобы разрешить этот компромисс, команда Яна разработала алгоритм под названием Bidirectional Decoding. Основная идея заключается в том, чтобы объединить преимущества длинных и коротких пакетов прямо во время исполнения (inference), не переучивая саму модель .
Процесс работает следующим образом:
- Робот генерирует большую партию (batch) кандидатов на следующую последовательность действий .
- Алгоритм ищет оптимальный вариант, используя два критерия выбора :
- Консистентность с прошлым: Новое решение должно быть близко к тому, что робот планировал мгновение назад (в предыдущем пакете). Это обеспечивает плавность.
- Прямой контраст (Forward Contrast): Выбирается образец, максимально близкий к предсказаниям лучшей версии модели и максимально далекий от предсказаний «слабой» (недообученной) модели. Это помогает выбрать наиболее эффективную стратегию для текущей ситуации .
Результаты тестов в симуляции показали впечатляющие результаты:
- Метод обеспечивает прирост производительности более чем на 30% по сравнению со стандартными методами, такими как EMA (экспоненциальное скользящее среднее) .
- В реальных задачах, таких как толкание блока (Push-T) или захват движущейся чашки, робот демонстрирует одновременно плавное поведение и способность «ловить» убегающий объект .
По утверждению Яна, этот алгоритм полностью свободен от необходимости обучения (training-free) и может быть применен к любой существующей политике .
🧠 Прошлое как ключ к будущему: Past Token Prediction 14:39
Второй подход, представленный в докладе, касается работы с длинным контекстом (Long Context). Спикер указывает на проблему: простое добавление истории кадров в модель часто не помогает, а вредит. Модели либо начинают страдать от «эффекта копиката» (слепо повторяют прошлые действия), либо процесс обучения становится невыносимо медленным из-за объемов видеопамяти .
Для решения этой проблемы был предложен метод Past Token Prediction (PTP). Вместо того чтобы заставлять робота смотреть только вперед, исследователи обучают его предсказывать не только будущие, но и прошедшие действия эксперта .
Ключевые особенности PTP:
- Регуляризация: Задача предсказания прошлого заставляет модель сохранять критически важную информацию о контексте, не превращаясь при этом в «инерционную» систему .
- Эффективность обучения: Ян предложил многостадийный рецепт обучения. Сначала обучается визуальный энкодер на коротких последовательностях, затем его признаки кэшируются, и на них обучается «голова» для действий уже с длинным контекстом. Это сокращает время обучения на 90% и более .
В экспериментах на сложных задачах (например, замена рулона скотча или перекладывание предметов из одной емкости в другую) метод PTP показал успех в 80% случаев, в то время как стандартные подходы проваливались полностью .
❓ Вопросы и перспективы: будущее за масштабированием тестов 21:56
В ходе сессии вопросов и ответов Ян затронул несколько важных практических аспектов:
- Скорость работы: Двунаправленное декодирование замедляет инференс примерно в два раза, так как требует генерации множества образцов. Однако, поскольку вычисления параллельны, это решаемая инженерная задача .
- Реальное время: Для работы в реальном мире роботы используют минимальный размер пакета (например, 2 шага), чтобы компенсировать время на обсчет нейросети .
- Иерархия управления: Спикер полагает, что в будущем поле робототехники придет к иерархическим моделям. Высокоуровневые задачи (семантическое понимание этапов) будут решаться за счет данных из интернета, а низкоуровневое управление — за счет специализированного обучения с длинным контекстом .
Ян выразил мнение, что текущий вектор развития ИИ — масштабирование данных и моделей — должен быть дополнен «масштабированием вычислений во время теста» (test-time compute). По его словам, эффективное использование ресурсов в момент принятия решения позволит роботам справляться с неопределенностью гораздо лучше, чем простое увеличение параметров сети .