Stanford Robotics Seminar ENGR319 | Autumn 2025 | Embodied Foundation Models

Embodied Foundation Models: Будущее автономной робототехники 🤖 0:23

Современная робототехника стремительно движется к созданию «воплощенных» (embodied) моделей — интеллектуальных систем, способных самостоятельно воспринимать окружающий мир, обучаться и взаимодействовать с ним в реальном времени. В рамках семинара Stanford Robotics в Стэнфордском университете эксперт представил обзор текущих подходов к развитию автономности роботов, подчеркнув переход от жестко заданных эвристических алгоритмов к обучаемым нейросетевым архитектурам, использующим методы обучения с подкреплением (Reinforcement Learning, RL).

Эволюция от простых движений к сложным задачам 🧠 0:36

Для классификации возможностей роботов эксперт использует две ключевые оси: мобильность и автономность.

Низкая мобильность и автономность: Традиционные промышленные манипуляторы, выполняющие повторяющиеся задачи в неизменных условиях.
Высокая автономность в ограниченной среде: Роботы-складские системы и беспилотные автомобили, работающие в предсказуемых сценариях.
Целевой уровень (высокая мобильность и автономность): Системы для доставки «последней мили», поисково-спасательных операций в зонах катастроф, мониторинга природных сред и космической робототехники.

По мнению спикера, полноценная автономность робота сегодня определяется как способность к независимому восприятию, пониманию и действию. За последнее десятилетие методы управления четвероногими роботами прошли путь от медленного модельно-предиктивного управления (MPC) до продвинутых RL-политик, позволяющих преодолевать сложные препятствия, такие как коробки или лестницы.

Методология обучения: от симуляции к реальности 🏗️ 3:28

Фундаментальной проблемой остается перенос навыков из симуляции в реальный мир (sim-to-real transfer). Стандартный пайплайн обучения выглядит следующим образом:

Формирование политики (Policy Training): Обучение нейросети ($\pi$) выдавать команды двигателям.
Низкоуровневое управление: Команды передаются на PD-контроллеры, которые подают реальный момент (torque) на приводы.
Симуляция: Используется для параллельного обучения тысяч роботов.
Развертывание: Перенос обученной модели на физического робота.

Эксперт отметил, что использование позиционного управления на начальном этапе обучения является критически важным. По его словам, если RL-агент на старте ничего не знает, он просто возвращается к позициям «по умолчанию», что позволяет роботу стоять стабильно, используя преимущество четырех ног. Попытки использовать прямое силовое (force) управление делают задачу поиска оптимальной стратегии экстремально сложной, так как системе необходимо сразу компенсировать гравитацию.

Проблемы разнообразия и адаптации 🌍 5:41

Главный вызов заключается в том, что нейросетевые модели склонны к сбоям при выходе за пределы обучающей выборки. Чтобы решить проблему разнообразия данных, команда провела масштабный сбор данных в Швейцарии — от горных вершин до пещер.

Для улучшения обучения роботов команда представила проект GausChim:

RGB-ориентированность: Робот обучается на данных с фронтальной камеры, а не только на геометрических сенсорах (лидарах).
Генеративные модели: Использование видеогенеративных моделей для создания разнообразных 3D-сцен, включая экстремальные (например, «