Ю Ванг о проекте Ψ0: «Будущее робототехники — эгоцентрические данные»

Будущее гуманоидных роботов: Ψ0 и новые методы обучения манипуляциям 0:05

В недавнем семинаре Stanford Robotics Seminar исследователь Ю Ванг представил проект Ψ0 (Psi-0) — открытую модель-основу, призванную совершить прорыв в универсальной локальной манипуляции для гуманоидных роботов. В центре дискуссии — преодоление разрыва между обучением в симуляции и реальными физическими задачами, а также создание масштабируемых методов сбора данных, которые позволят роботам выполнять повседневные дела наравне с человеком.

🤖 Факторы успеха и барьеры в робототехнике 1:26

По мнению Ю Ванга, недавние успехи в робототехнике стали возможны благодаря трем ключевым факторам:

Аппаратное обеспечение: Появление продвинутых платформ, таких как гуманоид Unitree G1, и специализированных устройств, например, устройств для захвата данных тактильных ощущений от группы Stanford Science Group.
Алгоритмы: Переход к моделям Vision Language Action (VLA), которые используют предварительно обученные на интернет-данных нейросети, дополненные экспертными данными о действиях роботов.
Данные: Использование продвинутых симуляторов (NVIDIA Isaac, Google MuJoCo) и систем телеуправления, таких как система «Gyro» от группы Питера Абеля из Беркли, для сбора качественных данных из реального мира.

Несмотря на прогресс, эксперт отмечает, что мы все еще далеки от внедрения гуманоидов в промышленность или домашний быт. Основная проблема заключается в сложности объединения локомоции (передвижения) и тонкой манипуляции объектами, а также в нехватке «интеллекта», позволяющего роботу самостоятельно рассуждать, какая последовательность действий необходима для выполнения задачи.

🧠 Методология Ψ0: обучение на данных человека 13:02

В отличие от традиционных подходов, полагающихся преимущественно на интернет-видео с высоким уровнем шума, авторы проекта Ψ0 делают ставку на эгоцентрические данные человека (вид «из глаз» оператора).

Масштабируемость: Исследователи разработали собственное устройство для сбора данных — компактный шлем с четырьмя стереокамерами, подключенный к Raspberry Pi, что позволяет записывать до пяти часов манипуляций в день без отрыва человека от его повседневной деятельности.
Естественное выравнивание: Данные с эгоцентрических камер и отслеживание движений рук человека естественным образом совпадают с тем, как «видит» мир и манипулирует объектами гуманоидный робот, что минимизирует «доменный разрыв».
Процесс обучения: Модель проходит двухэтапное обучение: пре-трейнинг на эгоцентрических видео (с использованием 829 часов данных EgoDex) и пост-трейнинг на экспертных данных телеуправления.

Для обработки непрерывных действий в Ψ0 используется токенизация: действия сжимаются с помощью «быстрого токенизатора» (Fast Tokenizer), разработанного Physical Intelligence, который преобразует их в частотную область с помощью дискретного косинусного преобразования.

🚀 Преодоление задержек: система Real-time Chunking 35:39

Одной из главных проблем при внедрении моделей VLA является задержка вывода (inference delay), приводящая к паузам и «дрожанию» (jittering) движений робота. Для решения этой задачи Ю Ванг внедрил систему реального времени:

Training Time Inpainting: Во время обучения модель учат «дорисовывать» (inpaint) пропущенные части последовательности действий, если она сталкивается с задержкой, что позволяет предсказывать движения плавно, даже если предыдущая команда еще не завершена.
Joint Attention: В архитектуру модели была добавлена инновационная «MM-DiT hat» (Multi-modal DiT head), которая объединяет признаки зрения/языка с признаками действий на самом раннем этапе, обеспечивая значительно более высокую производительность по сравнению с наивными подходами.

Результаты тестов показывают, что Ψ0 на 40% эффективнее предыдущих лидеров индустрии (например, NVIDIA GROOT 1.6), при этом используя всего 10% объема обучающих данных.

🛠 Проект HumDex и работа в будущем 50:11

В ходе семинара также была затронута работа «HumDex» — система телеуправления на базе портативных датчиков IMU. Она позволяет управлять гуманоидом, включая пятипалые руки, без громоздких VR-систем. Ю Ванг подчеркнул, что адаптация оператора к этой системе занимает всего около одного часа.

Основные направления дальнейших исследований:

Масштабирование данных: Переход от тысяч часов к миллионам, что невозможно в рамках одной лаборатории и потребует коллабораций с индустрией и дата-вендорами.
Силовое управление: Ю Ванг признал, что текущие модели, основанные на контроле позиции, плохо справляются с задачами, требующими учета силы нажатия, поэтому интеграция датчиков силы и крутящего момента в модели — приоритетная задача.