Как Stanford Online обучает роботов на данных человеческой деятельности

Stanford Online 14,4 тыс. 59 мин 3 мин 10.12.2024
Главное

Будущее гуманоидных роботов: обучение на данных человека 0:11

В данном семинаре Stanford Online исследователь представляет концепцию создания эффективных гуманоидных роботов, способных взаимодействовать с реальным миром. Ключевая идея автора заключается в том, что обучение роботов должно основываться на данных человеческой деятельности, объединяя высокоуровневое планирование через модели «зрение-язык-действие» (VLA) и низкоуровневое управление с помощью телеоперации и переноса обучения из симуляции в реальность (Sim2Real).

🤖 Роботы дома: физические ограничения и выбор архитектуры 1:24

Автор отмечает, что работа с роботами в домашних условиях выявляет неожиданные проблемы, прежде всего связанные с габаритами устройств. Даже современные роботы часто оказываются слишком большими для комфортного перемещения в типичных жилых пространствах.

🛠 Методы обучения: от телеоперации к данным человека 4:45

Для обучения роботов исследователь использует комбинацию нескольких подходов, признавая, что каждый из них имеет свои ограничения:

  1. Симуляция и Sim2Real: Позволяет тренировать модели без риска для «железа», однако требует экстремального упрощения задач, что мешает переносу навыков в сложные реальные условия.
  2. Телеоперация: Дает доступ к качественным данным реальных действий, но является дорогостоящим и трудномасштабируемым процессом.
  3. Использование видео человека: Самый перспективный, по мнению автора, источник данных, обеспечивающий богатый контекст сложных манипуляций, хотя и сложный в реализации из-за проблем с 3D-оценкой позы.

Особый интерес автора вызвала работа Spatial Region GPT, которая доказала, что языковые модели зрения могут не просто оценивать семантику, но и выполнять детальные метрические измерения, что критически важно для планирования действий робота.

🧤 Эгоцентрическое зрение и телеоперация 11:44

В проекте Open-TeleVision была продемонстрирована важность эгоцентрического (от первого лица) зрения. Оператор, используя VR-очки, видит мир глазами робота, что позволяет выполнять намного более точные и ловкие манипуляции, чем при наблюдении за роботом со стороны.

🏃 Ходьба и манипуляции: структура управления 16:50

Автор описывает эволюцию своих подходов к управлению: от разделения верхнего и нижнего уровней до внедрения полноценного управления всем телом (whole-body control).

🧠 Будущее: модели «зрение-язык-действие» 36:37

Финальный подход автора заключается в обучении модели Vision Language Action (VLA), которая работает на промежуточном уровне: она не просто «смотрит» и не просто «дергает моторами», а выдает осмысленные инструкции вроде «переместись вперед на 75 см».

По словам исследователя, в будущем VLA-модели должны не просто выполнять фиксированный набор задач, а обладать способностью к рассуждению. Текущая стратегия заключается в тренировке «человеческой VLA» на видео с людьми с последующей конвертацией действий в «роботизированные» через оптимизационные процессы и обратную кинематику.

💬 Цитаты

«После одного года никто не будет сомневаться, стоит ли использовать колеса или ноги.»

«Реальные данные хороши, но дороги. Данные симуляции еще дороже, но с ними крайне сложно решать сложные задачи.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
VLA (Vision Language Action)
Модель, объединяющая зрение, понимание языка и планирование действий для управления роботом.
Sim2Real
Методология переноса навыков, полученных агентом в виртуальной симуляции, в реальный физический мир.
IK (Inverse Kinematics / Обратная кинематика)
Математическая задача вычисления углов суставов робота для достижения заданной позиции конечного эффектора.
Проприоцепция
Чувство собственного тела, в робототехнике — данные о состоянии суставов и сенсоров робота.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект humanoid robots vision language action Sim2Real teleoperation Spatial Region GPT