Будущее гуманоидных роботов: обучение на данных человека 0:11
В данном семинаре Stanford Online исследователь представляет концепцию создания эффективных гуманоидных роботов, способных взаимодействовать с реальным миром. Ключевая идея автора заключается в том, что обучение роботов должно основываться на данных человеческой деятельности, объединяя высокоуровневое планирование через модели «зрение-язык-действие» (VLA) и низкоуровневое управление с помощью телеоперации и переноса обучения из симуляции в реальность (Sim2Real).
🤖 Роботы дома: физические ограничения и выбор архитектуры 1:24
Автор отмечает, что работа с роботами в домашних условиях выявляет неожиданные проблемы, прежде всего связанные с габаритами устройств. Даже современные роботы часто оказываются слишком большими для комфортного перемещения в типичных жилых пространствах.
- Колеса или ноги: Существуют постоянные дискуссии о том, стоит ли использовать колесную базу или ноги для мобильных манипуляторов.
- Преимущества ног: Исследователь убежден, что двуногое передвижение — это перспективное направление, так как ноги обеспечивают большую маневренность и легкость в балансировке по сравнению с громоздкими колесными базами, требующими массивной конструкции для поддержания устойчивости.
- Масштабируемость: Автор прогнозирует, что уже через год вопрос о выборе между колесами и ногами станет менее актуальным, так как обе технологии найдут свои ниши.
🛠 Методы обучения: от телеоперации к данным человека 4:45
Для обучения роботов исследователь использует комбинацию нескольких подходов, признавая, что каждый из них имеет свои ограничения:
- Симуляция и Sim2Real: Позволяет тренировать модели без риска для «железа», однако требует экстремального упрощения задач, что мешает переносу навыков в сложные реальные условия.
- Телеоперация: Дает доступ к качественным данным реальных действий, но является дорогостоящим и трудномасштабируемым процессом.
- Использование видео человека: Самый перспективный, по мнению автора, источник данных, обеспечивающий богатый контекст сложных манипуляций, хотя и сложный в реализации из-за проблем с 3D-оценкой позы.
Особый интерес автора вызвала работа Spatial Region GPT, которая доказала, что языковые модели зрения могут не просто оценивать семантику, но и выполнять детальные метрические измерения, что критически важно для планирования действий робота.
🧤 Эгоцентрическое зрение и телеоперация 11:44
В проекте Open-TeleVision была продемонстрирована важность эгоцентрического (от первого лица) зрения. Оператор, используя VR-очки, видит мир глазами робота, что позволяет выполнять намного более точные и ловкие манипуляции, чем при наблюдении за роботом со стороны.
- Дистанционное управление: Были успешно проведены тесты, где оператор из MIT управлял роботом в Сан-Диего, передавая видеопоток и управляющие сигналы через всю страну.
- Активная камера: Система предсказывает не только движение рук, но и движения головы робота, что делает процесс управления более естественным.
🏃 Ходьба и манипуляции: структура управления 16:50
Автор описывает эволюцию своих подходов к управлению: от разделения верхнего и нижнего уровней до внедрения полноценного управления всем телом (whole-body control).
- Whole-Body Control: В последних проектах, таких как ExBody2, используется меньший робот, что позволяет осуществлять полноценное отслеживание движений всего тела, опираясь на входные кинематические данные.
- Фильтрация данных: Одним из ключевых выводов исследования стало то, что «грязные» данные вредят обучению. Качество и сбалансированность датасета (например, использование среднеразмерных выборок D250) оказались важнее, чем просто количество записей.
- Стресс-тесты: Автор подчеркивает важность тестирования оборудования, отмечая, что предыдущие модели перегревались за 10 минут, тогда как новые способны работать два часа подряд.
🧠 Будущее: модели «зрение-язык-действие» 36:37
Финальный подход автора заключается в обучении модели Vision Language Action (VLA), которая работает на промежуточном уровне: она не просто «смотрит» и не просто «дергает моторами», а выдает осмысленные инструкции вроде «переместись вперед на 75 см».
По словам исследователя, в будущем VLA-модели должны не просто выполнять фиксированный набор задач, а обладать способностью к рассуждению. Текущая стратегия заключается в тренировке «человеческой VLA» на видео с людьми с последующей конвертацией действий в «роботизированные» через оптимизационные процессы и обратную кинематику.