# Как Stanford Online обучает роботов на данных человеческой деятельности

Источник: https://www.youtube.com/watch?v=uQ-5BryUNv8
Канал: Stanford Online
Опубликовано: 10.12.2024

---

## Будущее гуманоидных роботов: обучение на данных человека

[[JUMP:00:11]]

В данном семинаре Stanford Online исследователь представляет концепцию создания эффективных гуманоидных роботов, способных взаимодействовать с реальным миром. Ключевая идея автора заключается в том, что обучение роботов должно основываться на данных человеческой деятельности, объединяя высокоуровневое планирование через модели «зрение-язык-действие» (VLA) и низкоуровневое управление с помощью телеоперации и переноса обучения из симуляции в реальность (Sim2Real).

## 🤖 Роботы дома: физические ограничения и выбор архитектуры

[[JUMP:01:24]]

Автор отмечает, что работа с роботами в домашних условиях выявляет неожиданные проблемы, прежде всего связанные с габаритами устройств. Даже современные роботы часто оказываются слишком большими для комфортного перемещения в типичных жилых пространствах.

*   **Колеса или ноги:** Существуют постоянные дискуссии о том, стоит ли использовать колесную базу или ноги для мобильных манипуляторов.
*   **Преимущества ног:** Исследователь убежден, что двуногое передвижение — это перспективное направление, так как ноги обеспечивают большую маневренность и легкость в балансировке по сравнению с громоздкими колесными базами, требующими массивной конструкции для поддержания устойчивости.
*   **Масштабируемость:** Автор прогнозирует, что уже через год вопрос о выборе между колесами и ногами станет менее актуальным, так как обе технологии найдут свои ниши.

## 🛠 Методы обучения: от телеоперации к данным человека

[[JUMP:04:45]]

Для обучения роботов исследователь использует комбинацию нескольких подходов, признавая, что каждый из них имеет свои ограничения:

1.  **Симуляция и Sim2Real:** Позволяет тренировать модели без риска для «железа», однако требует экстремального упрощения задач, что мешает переносу навыков в сложные реальные условия.
2.  **Телеоперация:** Дает доступ к качественным данным реальных действий, но является дорогостоящим и трудномасштабируемым процессом.
3.  **Использование видео человека:** Самый перспективный, по мнению автора, источник данных, обеспечивающий богатый контекст сложных манипуляций, хотя и сложный в реализации из-за проблем с 3D-оценкой позы.

Особый интерес автора вызвала работа *Spatial Region GPT*, которая доказала, что языковые модели зрения могут не просто оценивать семантику, но и выполнять детальные метрические измерения, что критически важно для планирования действий робота.

## 🧤 Эгоцентрическое зрение и телеоперация

[[JUMP:11:44]]

В проекте *Open-TeleVision* была продемонстрирована важность эгоцентрического (от первого лица) зрения. Оператор, используя VR-очки, видит мир глазами робота, что позволяет выполнять намного более точные и ловкие манипуляции, чем при наблюдении за роботом со стороны.

*   **Дистанционное управление:** Были успешно проведены тесты, где оператор из MIT управлял роботом в Сан-Диего, передавая видеопоток и управляющие сигналы через всю страну.
*   **Активная камера:** Система предсказывает не только движение рук, но и движения головы робота, что делает процесс управления более естественным.

## 🏃 Ходьба и манипуляции: структура управления

[[JUMP:16:50]]

Автор описывает эволюцию своих подходов к управлению: от разделения верхнего и нижнего уровней до внедрения полноценного управления всем телом (*whole-body control*).

*   **Whole-Body Control:** В последних проектах, таких как *ExBody2*, используется меньший робот, что позволяет осуществлять полноценное отслеживание движений всего тела, опираясь на входные кинематические данные.
*   **Фильтрация данных:** Одним из ключевых выводов исследования стало то, что «грязные» данные вредят обучению. Качество и сбалансированность датасета (например, использование среднеразмерных выборок *D250*) оказались важнее, чем просто количество записей.
*   **Стресс-тесты:** Автор подчеркивает важность тестирования оборудования, отмечая, что предыдущие модели перегревались за 10 минут, тогда как новые способны работать два часа подряд.

## 🧠 Будущее: модели «зрение-язык-действие»

[[JUMP:36:37]]

Финальный подход автора заключается в обучении модели *Vision Language Action* (VLA), которая работает на промежуточном уровне: она не просто «смотрит» и не просто «дергает моторами», а выдает осмысленные инструкции вроде «переместись вперед на 75 см».

По словам исследователя, в будущем VLA-модели должны не просто выполнять фиксированный набор задач, а обладать способностью к рассуждению. Текущая стратегия заключается в тренировке «человеческой VLA» на видео с людьми с последующей конвертацией действий в «роботизированные» через оптимизационные процессы и обратную кинематику.