Ю Ванг о проекте Ψ0: «Будущее робототехники — эгоцентрические данные»

Stanford Online 15,8 тыс. 1 ч 4 мин 3 мин 03.03.2026
Главное

Будущее гуманоидных роботов: Ψ0 и новые методы обучения манипуляциям 0:05

В недавнем семинаре Stanford Robotics Seminar исследователь Ю Ванг представил проект Ψ0 (Psi-0) — открытую модель-основу, призванную совершить прорыв в универсальной локальной манипуляции для гуманоидных роботов. В центре дискуссии — преодоление разрыва между обучением в симуляции и реальными физическими задачами, а также создание масштабируемых методов сбора данных, которые позволят роботам выполнять повседневные дела наравне с человеком.

🤖 Факторы успеха и барьеры в робототехнике 1:26

По мнению Ю Ванга, недавние успехи в робототехнике стали возможны благодаря трем ключевым факторам:

Несмотря на прогресс, эксперт отмечает, что мы все еще далеки от внедрения гуманоидов в промышленность или домашний быт. Основная проблема заключается в сложности объединения локомоции (передвижения) и тонкой манипуляции объектами, а также в нехватке «интеллекта», позволяющего роботу самостоятельно рассуждать, какая последовательность действий необходима для выполнения задачи.

🧠 Методология Ψ0: обучение на данных человека 13:02

В отличие от традиционных подходов, полагающихся преимущественно на интернет-видео с высоким уровнем шума, авторы проекта Ψ0 делают ставку на эгоцентрические данные человека (вид «из глаз» оператора).

Для обработки непрерывных действий в Ψ0 используется токенизация: действия сжимаются с помощью «быстрого токенизатора» (Fast Tokenizer), разработанного Physical Intelligence, который преобразует их в частотную область с помощью дискретного косинусного преобразования.

🚀 Преодоление задержек: система Real-time Chunking 35:39

Одной из главных проблем при внедрении моделей VLA является задержка вывода (inference delay), приводящая к паузам и «дрожанию» (jittering) движений робота. Для решения этой задачи Ю Ванг внедрил систему реального времени:

Результаты тестов показывают, что Ψ0 на 40% эффективнее предыдущих лидеров индустрии (например, NVIDIA GROOT 1.6), при этом используя всего 10% объема обучающих данных.

🛠 Проект HumDex и работа в будущем 50:11

В ходе семинара также была затронута работа «HumDex» — система телеуправления на базе портативных датчиков IMU. Она позволяет управлять гуманоидом, включая пятипалые руки, без громоздких VR-систем. Ю Ванг подчеркнул, что адаптация оператора к этой системе занимает всего около одного часа.

Основные направления дальнейших исследований:

  1. Масштабирование данных: Переход от тысяч часов к миллионам, что невозможно в рамках одной лаборатории и потребует коллабораций с индустрией и дата-вендорами.
  2. Силовое управление: Ю Ванг признал, что текущие модели, основанные на контроле позиции, плохо справляются с задачами, требующими учета силы нажатия, поэтому интеграция датчиков силы и крутящего момента в модели — приоритетная задача.
💬 Цитаты

«Мы хотим развить некоторую модель интеллекта, например, крупные VLA-модели, чтобы действительно управлять роботом в унифицированном стиле.»

«Поскольку нам нужно выполнять некоторые тонкие задачи... я думаю, управление на основе силы и интеграция этих сигналов силы очень важны.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VLA (Vision-Language-Action)
Класс моделей, которые связывают визуальное восприятие и языковые инструкции с действиями робота.
Эгоцентрические данные
Данные, записанные с точки зрения первого лица (от первого лица).
Локомоция
Процесс передвижения робота в пространстве.
IK (Inverse Kinematics)
Обратная кинематика, математический метод вычисления углов суставов робота для достижения нужного положения конечности.
IMU (Inertial Measurement Unit)
Инерциальный измерительный модуль, отслеживающий углы наклона и ускорения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Ψ0 Unitree G1 Vision Language Action Humanoid Robotics Stanford Online