На семинаре Стэнфордского университета по робототехнике (ENGR319) исследователи представили последние достижения в области автономной навигации и человеко-машинного взаимодействия. Основное внимание было уделено переходу от простой логистики в неструктурированной среде к созданию роботов-компаньонов, способных безопасно взаимодействовать с пожилыми людьми и понимать социальный контекст через современные языковые модели.
🚜 Проблема навигации в неструктурированной среде 0:05
Роботизированная навигация — это процесс, при котором робот, получив цель, самостоятельно планирует путь и движется к ней . По словам Дзин (Jing), постдока Стэнфордского центра робототехники, эта технология уже совершает революцию в логистике, обеспечивая доставку «последней мили» и повышая эффективность складов . Однако выход роботов за пределы подготовленных помещений на улицу сопряжен с серьезными трудностями.
Основными вызовами для уличной навигации являются:
- Анализ проходимости (Traversability): Робот должен не просто избегать препятствий, но и понимать тип поверхности .
- Социальное соответствие: Движение должно быть комфортным и предсказуемым для пешеходов .
- Контекст дорожного движения: Понимание сигналов светофора и правил приоритета при встрече с транспортом .
Дзин отмечает, что понятие проходимости субъективно и зависит от типа робота. Если для колесных платформ критически важны ровные поверхности, то четвероногие роботы (legged robots) способны преодолевать бордюры и лестницы . Также вес машины определяет, является ли куст препятствием или проходимой растительностью .
🧠 Технологический стек: от VLM до Гауссова сплаттинга 3:21
Для решения задач проходимости команда Дзин разработала систему генерации траекторий с использованием механизма автоэнкодера и декодера . Система создает набор разнообразных кандидатов на путь, которые затем оцениваются с помощью визуально-языковых моделей (VLM) для выбора оптимального варианта .
В ходе исследований использовались следующие подходы и инструменты:
- Сравнение моделей: Исследователи сравнили чисто языковые подходы (Convoy) и методы на основе топологических карт (NoMAD) со своим методом MTG. По их данным, MTG лучше справляется с определением проходимых зон в сложных условиях .
- Датасеты: Для обучения был собран массив данных, включающий 10 университетских кампусов и 11 часов записей со множеством датчиков (3D LiDAR, RGB-камеры 360°, IMU, GPS) .
- Семантическое картирование: Команда применила метод Гауссова сплаттинга (Gaussian splatting) для рендеринга окружения с учетом семантики . Это позволяет роботу понимать не только геометрию, но и физические свойства объектов: гибкость травы, жесткость кустов или плотность камней .
Физические свойства поверхностей (трение, твердость, упругость) оцениваются с помощью апостериорного распределения Дирихле, что позволяет роботу «чувствовать» среду до вступления в контакт .
👵 Роботы-компаньоны для стареющего общества 11:40
Важным направлением работы Стэнфордского центра становится адаптация навигационных стеков для роботов-помощников. По прогнозам, приведенным Дзин, к 2030 году более 20% населения США будут составлять люди старше 65 лет — это каждый пятый житель страны .
Исследователи выделяют два ключевых вектора:
- Ассистент навигации: Робот выступает как «глаза и уши» человека, предупреждая об опасных участках дороги или трафике . Он должен не просто избегать людей, но и идти в одном темпе с владельцем, понимая голосовые инструкции .
- Анализ поведения: На основе общения с сообществами пожилых людей выяснилось, что их главный страх — падение . Робот может мониторить состояние здоровья, выявлять риски заболеваний по походке и оказывать поддержку, не лишая человека независимости .
В качестве платформ для этих целей рассматриваются роботы Gitamini и колесно-шагающие платформы Unitree .
🤖 «Нежные» гуманоиды: безопасность при физическом контакте 18:00
Второй докладчик семинара представил концепцию перехода от «цифровых людей» к безопасным физическим гуманоидам. По мнению исследователя, гуманоидные роботы — это идеальные испытательные стенды для проверки «физического интеллекта» и инструменты для сбора данных о человеческом поведении .
Главная проблема современных гуманоидов заключается в опасности при неожиданном физическом контакте . Для её решения была разработана система «податливого» (compliant) управления, получившая название «Gentle Humanoid» (Нежный гуманоид) .
Основные принципы системы:
- Force Modeling: Использование системы «пружина-демпфер» для моделирования силы взаимодействия .
- Разделение контактов: Робот различает «сопротивляющийся контакт» (когда он случайно упирается в объект) и «направляющий контакт» (когда человек берет робота за руку и ведет за собой) .
- Регулируемая жесткость: Программное ограничение силы (например, не более 20 Ньютонов) позволяет роботу быть мягким при рукопожатии, но достаточно жестким, чтобы помочь человеку встать со стула .
Исследователи продемонстрировали работу системы на роботе Unitree G1, который сохраняет стабильность, даже если человек активно тянет его за руки или меняет его позу в реальном времени .
🗨️ Языковые модели как «социальный мозг» робота 31:14
Чтобы робот мог самостоятельно принимать решения — например, стоит ли обнять человека или просто подойти — исследователи интегрировали в систему большие языковые модели (LLM). Однако обычные LLM работают с текстом и плохо понимают 3D-конфигурации .
Для решения этой проблемы были представлены проекты ChatPose и ChatHuman :
- Проекционные слои: Исследователи обучили специальные слои, которые переводят языковые токены напрямую в 3D-позы человеческого тела .
- Понимание контекста: Модель может интерпретировать сложные ситуации. Например, по фразе «мужчина делает предложение» робот понимает, что человек должен стоять на одном колене, и может предсказать его следующее движение .
- Агентная система: Робот-агент способен «читать» научные статьи по биомеханике и выбирать оптимальные инструменты для оценки высоты человека, его эмоций или траектории движения рук во время приготовления пищи .
🚀 Будущее: от зрения к эмпатии 37:52
Несмотря на успехи, исследователи признают наличие ряда открытых проблем. Одной из главных является задержка вывода LLM (1–2 секунды), что недопустимо для роботов, работающих в динамичной среде .
В будущем планируется развивать следующие направления:
- Мультимодальное восприятие: Добавление тактильных и тепловых датчиков (например, для роботов-сиделок, которым нужно чувствовать температуру воды при купании пациента) .
- Эмоциональная поддержка: Робот должен выражать эмпатию через голос, мимику на дисплеях и тактильные жесты .
- Сбор данных: Использование гуманоидов для создания «маховика данных» (flywheel), где каждое взаимодействие с человеком улучшает модель поведения робота .
В завершение семинара докладчики подчеркнули, что их цель — создать систему, которая будет не просто выполнять команды, но станет полноценным «социальным партнером», способным понимать физическое и эмоциональное состояние человека.