Роботы-компаньоны и «нежные» гуманоиды: новые стандарты автономной навигации от Стэнфорда

Stanford Online 3,8 тыс. 44 мин 5 мин 30.01.2026
Главное

На семинаре Стэнфордского университета по робототехнике (ENGR319) исследователи представили последние достижения в области автономной навигации и человеко-машинного взаимодействия. Основное внимание было уделено переходу от простой логистики в неструктурированной среде к созданию роботов-компаньонов, способных безопасно взаимодействовать с пожилыми людьми и понимать социальный контекст через современные языковые модели.

🚜 Проблема навигации в неструктурированной среде 0:05

Роботизированная навигация — это процесс, при котором робот, получив цель, самостоятельно планирует путь и движется к ней . По словам Дзин (Jing), постдока Стэнфордского центра робототехники, эта технология уже совершает революцию в логистике, обеспечивая доставку «последней мили» и повышая эффективность складов . Однако выход роботов за пределы подготовленных помещений на улицу сопряжен с серьезными трудностями.

Основными вызовами для уличной навигации являются:

Дзин отмечает, что понятие проходимости субъективно и зависит от типа робота. Если для колесных платформ критически важны ровные поверхности, то четвероногие роботы (legged robots) способны преодолевать бордюры и лестницы . Также вес машины определяет, является ли куст препятствием или проходимой растительностью .

🧠 Технологический стек: от VLM до Гауссова сплаттинга 3:21

Для решения задач проходимости команда Дзин разработала систему генерации траекторий с использованием механизма автоэнкодера и декодера . Система создает набор разнообразных кандидатов на путь, которые затем оцениваются с помощью визуально-языковых моделей (VLM) для выбора оптимального варианта .

В ходе исследований использовались следующие подходы и инструменты:

  1. Сравнение моделей: Исследователи сравнили чисто языковые подходы (Convoy) и методы на основе топологических карт (NoMAD) со своим методом MTG. По их данным, MTG лучше справляется с определением проходимых зон в сложных условиях .
  2. Датасеты: Для обучения был собран массив данных, включающий 10 университетских кампусов и 11 часов записей со множеством датчиков (3D LiDAR, RGB-камеры 360°, IMU, GPS) .
  3. Семантическое картирование: Команда применила метод Гауссова сплаттинга (Gaussian splatting) для рендеринга окружения с учетом семантики . Это позволяет роботу понимать не только геометрию, но и физические свойства объектов: гибкость травы, жесткость кустов или плотность камней .

Физические свойства поверхностей (трение, твердость, упругость) оцениваются с помощью апостериорного распределения Дирихле, что позволяет роботу «чувствовать» среду до вступления в контакт .

👵 Роботы-компаньоны для стареющего общества 11:40

Важным направлением работы Стэнфордского центра становится адаптация навигационных стеков для роботов-помощников. По прогнозам, приведенным Дзин, к 2030 году более 20% населения США будут составлять люди старше 65 лет — это каждый пятый житель страны .

Исследователи выделяют два ключевых вектора:

В качестве платформ для этих целей рассматриваются роботы Gitamini и колесно-шагающие платформы Unitree .

🤖 «Нежные» гуманоиды: безопасность при физическом контакте 18:00

Второй докладчик семинара представил концепцию перехода от «цифровых людей» к безопасным физическим гуманоидам. По мнению исследователя, гуманоидные роботы — это идеальные испытательные стенды для проверки «физического интеллекта» и инструменты для сбора данных о человеческом поведении .

Главная проблема современных гуманоидов заключается в опасности при неожиданном физическом контакте . Для её решения была разработана система «податливого» (compliant) управления, получившая название «Gentle Humanoid» (Нежный гуманоид) .

Основные принципы системы:

Исследователи продемонстрировали работу системы на роботе Unitree G1, который сохраняет стабильность, даже если человек активно тянет его за руки или меняет его позу в реальном времени .

🗨️ Языковые модели как «социальный мозг» робота 31:14

Чтобы робот мог самостоятельно принимать решения — например, стоит ли обнять человека или просто подойти — исследователи интегрировали в систему большие языковые модели (LLM). Однако обычные LLM работают с текстом и плохо понимают 3D-конфигурации .

Для решения этой проблемы были представлены проекты ChatPose и ChatHuman :

  1. Проекционные слои: Исследователи обучили специальные слои, которые переводят языковые токены напрямую в 3D-позы человеческого тела .
  2. Понимание контекста: Модель может интерпретировать сложные ситуации. Например, по фразе «мужчина делает предложение» робот понимает, что человек должен стоять на одном колене, и может предсказать его следующее движение .
  3. Агентная система: Робот-агент способен «читать» научные статьи по биомеханике и выбирать оптимальные инструменты для оценки высоты человека, его эмоций или траектории движения рук во время приготовления пищи .

🚀 Будущее: от зрения к эмпатии 37:52

Несмотря на успехи, исследователи признают наличие ряда открытых проблем. Одной из главных является задержка вывода LLM (1–2 секунды), что недопустимо для роботов, работающих в динамичной среде .

В будущем планируется развивать следующие направления:

В завершение семинара докладчики подчеркнули, что их цель — создать систему, которая будет не просто выполнять команды, но станет полноценным «социальным партнером», способным понимать физическое и эмоциональное состояние человека.

💬 Цитаты

«Для колесного робота важны плоские поверхности, но для шагающего — бордюры и лестницы вполне проходимы.»

«Мы хотим, чтобы робот не просто избегал пешеходов, но и адаптировался к их темпу как настоящий спутник.»

«На самом деле, обнимать гуманоида — это очень приятное ощущение.»

Второй докладчик 30:25
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Гауссов сплаттинг
Метод визуализации и реконструкции 3D-сцен, использующий облака точек с гауссовым распределением плотности.
VLM (Vision Language Model)
Тип нейросетей, способный одновременно обрабатывать и сопоставлять визуальную информацию и текстовые описания.
Проходимость (Traversability)
Способность робота физически преодолеть определенный участок местности без повреждений или застревания.
LoRA (Low-Rank Adaptation)
Метод эффективного дообучения больших нейросетей путем изменения лишь малого подмножества параметров.
📊 Цифры
🗓 Хронология
  1. 2020 В США насчитывалось более 55 миллионов человек в возрасте 65 лет и старше.
  2. 2030 Прогнозируемое время, когда каждый пятый американец станет пожилым.
  3. Зима 2026 Проведение семинара ENGR319 в Стэнфорде.
⚖️ Другая сторона
Инженерия Stanford University VLM Gaussian splatting Unitree LLaVA