Роботы-компаньоны и «нежные» гуманоиды: новые стандарты автономной навигации от Стэнфорда

На семинаре Стэнфордского университета по робототехнике (ENGR319) исследователи представили последние достижения в области автономной навигации и человеко-машинного взаимодействия. Основное внимание было уделено переходу от простой логистики в неструктурированной среде к созданию роботов-компаньонов, способных безопасно взаимодействовать с пожилыми людьми и понимать социальный контекст через современные языковые модели.

🚜 Проблема навигации в неструктурированной среде 0:05

Роботизированная навигация — это процесс, при котором робот, получив цель, самостоятельно планирует путь и движется к ней . По словам Дзин (Jing), постдока Стэнфордского центра робототехники, эта технология уже совершает революцию в логистике, обеспечивая доставку «последней мили» и повышая эффективность складов . Однако выход роботов за пределы подготовленных помещений на улицу сопряжен с серьезными трудностями.

Основными вызовами для уличной навигации являются:

Анализ проходимости (Traversability): Робот должен не просто избегать препятствий, но и понимать тип поверхности .
Социальное соответствие: Движение должно быть комфортным и предсказуемым для пешеходов .
Контекст дорожного движения: Понимание сигналов светофора и правил приоритета при встрече с транспортом .

Дзин отмечает, что понятие проходимости субъективно и зависит от типа робота. Если для колесных платформ критически важны ровные поверхности, то четвероногие роботы (legged robots) способны преодолевать бордюры и лестницы . Также вес машины определяет, является ли куст препятствием или проходимой растительностью .

🧠 Технологический стек: от VLM до Гауссова сплаттинга 3:21

Для решения задач проходимости команда Дзин разработала систему генерации траекторий с использованием механизма автоэнкодера и декодера . Система создает набор разнообразных кандидатов на путь, которые затем оцениваются с помощью визуально-языковых моделей (VLM) для выбора оптимального варианта .

В ходе исследований использовались следующие подходы и инструменты:

Сравнение моделей: Исследователи сравнили чисто языковые подходы (Convoy) и методы на основе топологических карт (NoMAD) со своим методом MTG. По их данным, MTG лучше справляется с определением проходимых зон в сложных условиях .
Датасеты: Для обучения был собран массив данных, включающий 10 университетских кампусов и 11 часов записей со множеством датчиков (3D LiDAR, RGB-камеры 360°, IMU, GPS) .
Семантическое картирование: Команда применила метод Гауссова сплаттинга (Gaussian splatting) для рендеринга окружения с учетом семантики . Это позволяет роботу понимать не только геометрию, но и физические свойства объектов: гибкость травы, жесткость кустов или плотность камней .

Физические свойства поверхностей (трение, твердость, упругость) оцениваются с помощью апостериорного распределения Дирихле, что позволяет роботу «чувствовать» среду до вступления в контакт .

👵 Роботы-компаньоны для стареющего общества 11:40

Важным направлением работы Стэнфордского центра становится адаптация навигационных стеков для роботов-помощников. По прогнозам, приведенным Дзин, к 2030 году более 20% населения США будут составлять люди старше 65 лет — это каждый пятый житель страны .

Исследователи выделяют два ключевых вектора:

Ассистент навигации: Робот выступает как «глаза и уши» человека, предупреждая об опасных участках дороги или трафике . Он должен не просто избегать людей, но и идти в одном темпе с владельцем, понимая голосовые инструкции .
Анализ поведения: На основе общения с сообществами пожилых людей выяснилось, что их главный страх — падение . Робот может мониторить состояние здоровья, выявлять риски заболеваний по походке и оказывать поддержку, не лишая человека независимости .

В качестве платформ для этих целей рассматриваются роботы Gitamini и колесно-шагающие платформы Unitree .

🤖 «Нежные» гуманоиды: безопасность при физическом контакте 18:00

Второй докладчик семинара представил концепцию перехода от «цифровых людей» к безопасным физическим гуманоидам. По мнению исследователя, гуманоидные роботы — это идеальные испытательные стенды для проверки «физического интеллекта» и инструменты для сбора данных о человеческом поведении .

Главная проблема современных гуманоидов заключается в опасности при неожиданном физическом контакте . Для её решения была разработана система «податливого» (compliant) управления, получившая название «Gentle Humanoid» (Нежный гуманоид) .

Основные принципы системы:

Force Modeling: Использование системы «пружина-демпфер» для моделирования силы взаимодействия .
Разделение контактов: Робот различает «сопротивляющийся контакт» (когда он случайно упирается в объект) и «направляющий контакт» (когда человек берет робота за руку и ведет за собой) .
Регулируемая жесткость: Программное ограничение силы (например, не более 20 Ньютонов) позволяет роботу быть мягким при рукопожатии, но достаточно жестким, чтобы помочь человеку встать со стула .

Исследователи продемонстрировали работу системы на роботе Unitree G1, который сохраняет стабильность, даже если человек активно тянет его за руки или меняет его позу в реальном времени .

🗨️ Языковые модели как «социальный мозг» робота 31:14

Чтобы робот мог самостоятельно принимать решения — например, стоит ли обнять человека или просто подойти — исследователи интегрировали в систему большие языковые модели (LLM). Однако обычные LLM работают с текстом и плохо понимают 3D-конфигурации .

Для решения этой проблемы были представлены проекты ChatPose и ChatHuman :

Проекционные слои: Исследователи обучили специальные слои, которые переводят языковые токены напрямую в 3D-позы человеческого тела .
Понимание контекста: Модель может интерпретировать сложные ситуации. Например, по фразе «мужчина делает предложение» робот понимает, что человек должен стоять на одном колене, и может предсказать его следующее движение .
Агентная система: Робот-агент способен «читать» научные статьи по биомеханике и выбирать оптимальные инструменты для оценки высоты человека, его эмоций или траектории движения рук во время приготовления пищи .

🚀 Будущее: от зрения к эмпатии 37:52

Несмотря на успехи, исследователи признают наличие ряда открытых проблем. Одной из главных является задержка вывода LLM (1–2 секунды), что недопустимо для роботов, работающих в динамичной среде .

В будущем планируется развивать следующие направления:

Мультимодальное восприятие: Добавление тактильных и тепловых датчиков (например, для роботов-сиделок, которым нужно чувствовать температуру воды при купании пациента) .
Эмоциональная поддержка: Робот должен выражать эмпатию через голос, мимику на дисплеях и тактильные жесты .
Сбор данных: Использование гуманоидов для создания «маховика данных» (flywheel), где каждое взаимодействие с человеком улучшает модель поведения робота .

В завершение семинара докладчики подчеркнули, что их цель — создать систему, которая будет не просто выполнять команды, но станет полноценным «социальным партнером», способным понимать физическое и эмоциональное состояние человека.