Как Stanford Online обучает роботов на данных человеческой деятельности

Будущее гуманоидных роботов: обучение на данных человека 0:11

В данном семинаре Stanford Online исследователь представляет концепцию создания эффективных гуманоидных роботов, способных взаимодействовать с реальным миром. Ключевая идея автора заключается в том, что обучение роботов должно основываться на данных человеческой деятельности, объединяя высокоуровневое планирование через модели «зрение-язык-действие» (VLA) и низкоуровневое управление с помощью телеоперации и переноса обучения из симуляции в реальность (Sim2Real).

🤖 Роботы дома: физические ограничения и выбор архитектуры 1:24

Автор отмечает, что работа с роботами в домашних условиях выявляет неожиданные проблемы, прежде всего связанные с габаритами устройств. Даже современные роботы часто оказываются слишком большими для комфортного перемещения в типичных жилых пространствах.

Колеса или ноги: Существуют постоянные дискуссии о том, стоит ли использовать колесную базу или ноги для мобильных манипуляторов.
Преимущества ног: Исследователь убежден, что двуногое передвижение — это перспективное направление, так как ноги обеспечивают большую маневренность и легкость в балансировке по сравнению с громоздкими колесными базами, требующими массивной конструкции для поддержания устойчивости.
Масштабируемость: Автор прогнозирует, что уже через год вопрос о выборе между колесами и ногами станет менее актуальным, так как обе технологии найдут свои ниши.

🛠 Методы обучения: от телеоперации к данным человека 4:45

Для обучения роботов исследователь использует комбинацию нескольких подходов, признавая, что каждый из них имеет свои ограничения:

Симуляция и Sim2Real: Позволяет тренировать модели без риска для «железа», однако требует экстремального упрощения задач, что мешает переносу навыков в сложные реальные условия.
Телеоперация: Дает доступ к качественным данным реальных действий, но является дорогостоящим и трудномасштабируемым процессом.
Использование видео человека: Самый перспективный, по мнению автора, источник данных, обеспечивающий богатый контекст сложных манипуляций, хотя и сложный в реализации из-за проблем с 3D-оценкой позы.

Особый интерес автора вызвала работа Spatial Region GPT, которая доказала, что языковые модели зрения могут не просто оценивать семантику, но и выполнять детальные метрические измерения, что критически важно для планирования действий робота.

🧤 Эгоцентрическое зрение и телеоперация 11:44

В проекте Open-TeleVision была продемонстрирована важность эгоцентрического (от первого лица) зрения. Оператор, используя VR-очки, видит мир глазами робота, что позволяет выполнять намного более точные и ловкие манипуляции, чем при наблюдении за роботом со стороны.

Дистанционное управление: Были успешно проведены тесты, где оператор из MIT управлял роботом в Сан-Диего, передавая видеопоток и управляющие сигналы через всю страну.
Активная камера: Система предсказывает не только движение рук, но и движения головы робота, что делает процесс управления более естественным.

🏃 Ходьба и манипуляции: структура управления 16:50

Автор описывает эволюцию своих подходов к управлению: от разделения верхнего и нижнего уровней до внедрения полноценного управления всем телом (whole-body control).

Whole-Body Control: В последних проектах, таких как ExBody2, используется меньший робот, что позволяет осуществлять полноценное отслеживание движений всего тела, опираясь на входные кинематические данные.
Фильтрация данных: Одним из ключевых выводов исследования стало то, что «грязные» данные вредят обучению. Качество и сбалансированность датасета (например, использование среднеразмерных выборок D250) оказались важнее, чем просто количество записей.
Стресс-тесты: Автор подчеркивает важность тестирования оборудования, отмечая, что предыдущие модели перегревались за 10 минут, тогда как новые способны работать два часа подряд.

🧠 Будущее: модели «зрение-язык-действие» 36:37

Финальный подход автора заключается в обучении модели Vision Language Action (VLA), которая работает на промежуточном уровне: она не просто «смотрит» и не просто «дергает моторами», а выдает осмысленные инструкции вроде «переместись вперед на 75 см».

По словам исследователя, в будущем VLA-модели должны не просто выполнять фиксированный набор задач, а обладать способностью к рассуждению. Текущая стратегия заключается в тренировке «человеческой VLA» на видео с людьми с последующей конвертацией действий в «роботизированные» через оптимизационные процессы и обратную кинематику.