# Роботы-компаньоны и «нежные» гуманоиды: новые стандарты автономной навигации от Стэнфорда

Источник: https://www.youtube.com/watch?v=o5bW3C5OD6U
Канал: Stanford Online
Опубликовано: 30.01.2026

---

На семинаре Стэнфордского университета по робототехнике (ENGR319) исследователи представили последние достижения в области автономной навигации и человеко-машинного взаимодействия. Основное внимание было уделено переходу от простой логистики в неструктурированной среде к созданию роботов-компаньонов, способных безопасно взаимодействовать с пожилыми людьми и понимать социальный контекст через современные языковые модели.

## 🚜 Проблема навигации в неструктурированной среде
[[JUMP:0:05]]

Роботизированная навигация — это процесс, при котором робот, получив цель, самостоятельно планирует путь и движется к ней [0:45]. По словам Дзин (Jing), постдока Стэнфордского центра робототехники, эта технология уже совершает революцию в логистике, обеспечивая доставку «последней мили» и повышая эффективность складов [0:59]. Однако выход роботов за пределы подготовленных помещений на улицу сопряжен с серьезными трудностями.

Основными вызовами для уличной навигации являются:

*   **Анализ проходимости (Traversability):** Робот должен не просто избегать препятствий, но и понимать тип поверхности [1:55].
*   **Социальное соответствие:** Движение должно быть комфортным и предсказуемым для пешеходов [2:08].
*   **Контекст дорожного движения:** Понимание сигналов светофора и правил приоритета при встрече с транспортом [2:24].

Дзин отмечает, что понятие проходимости субъективно и зависит от типа робота. Если для колесных платформ критически важны ровные поверхности, то четвероногие роботы (legged robots) способны преодолевать бордюры и лестницы [2:38]. Также вес машины определяет, является ли куст препятствием или проходимой растительностью [3:06].

## 🧠 Технологический стек: от VLM до Гауссова сплаттинга
[[JUMP:3:21]]

Для решения задач проходимости команда Дзин разработала систему генерации траекторий с использованием механизма автоэнкодера и декодера [3:35]. Система создает набор разнообразных кандидатов на путь, которые затем оцениваются с помощью визуально-языковых моделей (VLM) для выбора оптимального варианта [4:02].

В ходе исследований использовались следующие подходы и инструменты:

1.  **Сравнение моделей:** Исследователи сравнили чисто языковые подходы (Convoy) и методы на основе топологических карт (NoMAD) со своим методом MTG. По их данным, MTG лучше справляется с определением проходимых зон в сложных условиях [4:29].
2.  **Датасеты:** Для обучения был собран массив данных, включающий 10 университетских кампусов и 11 часов записей со множеством датчиков (3D LiDAR, RGB-камеры 360°, IMU, GPS) [5:54].
3.  **Семантическое картирование:** Команда применила метод Гауссова сплаттинга (Gaussian splatting) для рендеринга окружения с учетом семантики [7:09]. Это позволяет роботу понимать не только геометрию, но и физические свойства объектов: гибкость травы, жесткость кустов или плотность камней [7:46].

Физические свойства поверхностей (трение, твердость, упругость) оцениваются с помощью апостериорного распределения Дирихле, что позволяет роботу «чувствовать» среду до вступления в контакт [8:01].

## 👵 Роботы-компаньоны для стареющего общества
[[JUMP:11:40]]

Важным направлением работы Стэнфордского центра становится адаптация навигационных стеков для роботов-помощников. По прогнозам, приведенным Дзин, к 2030 году более 20% населения США будут составлять люди старше 65 лет — это каждый пятый житель страны [12:10]. 

Исследователи выделяют два ключевых вектора:

*   **Ассистент навигации:** Робот выступает как «глаза и уши» человека, предупреждая об опасных участках дороги или трафике [13:11]. Он должен не просто избегать людей, но и идти в одном темпе с владельцем, понимая голосовые инструкции [13:41].
*   **Анализ поведения:** На основе общения с сообществами пожилых людей выяснилось, что их главный страх — падение [14:09]. Робот может мониторить состояние здоровья, выявлять риски заболеваний по походке и оказывать поддержку, не лишая человека независимости [14:38].

В качестве платформ для этих целей рассматриваются роботы Gitamini и колесно-шагающие платформы Unitree [15:06].

## 🤖 «Нежные» гуманоиды: безопасность при физическом контакте
[[JUMP:18:00]]

Второй докладчик семинара представил концепцию перехода от «цифровых людей» к безопасным физическим гуманоидам. По мнению исследователя, гуманоидные роботы — это идеальные испытательные стенды для проверки «физического интеллекта» и инструменты для сбора данных о человеческом поведении [18:53].

Главная проблема современных гуманоидов заключается в опасности при неожиданном физическом контакте [20:41]. Для её решения была разработана система «податливого» (compliant) управления, получившая название «Gentle Humanoid» (Нежный гуманоид) [21:20].

Основные принципы системы:

*   **Force Modeling:** Использование системы «пружина-демпфер» для моделирования силы взаимодействия [23:31].
*   **Разделение контактов:** Робот различает «сопротивляющийся контакт» (когда он случайно упирается в объект) и «направляющий контакт» (когда человек берет робота за руку и ведет за собой) [23:59].
*   **Регулируемая жесткость:** Программное ограничение силы (например, не более 20 Ньютонов) позволяет роботу быть мягким при рукопожатии, но достаточно жестким, чтобы помочь человеку встать со стула [25:44].

Исследователи продемонстрировали работу системы на роботе Unitree G1, который сохраняет стабильность, даже если человек активно тянет его за руки или меняет его позу в реальном времени [27:17].

## 🗨️ Языковые модели как «социальный мозг» робота
[[JUMP:31:14]]

Чтобы робот мог самостоятельно принимать решения — например, стоит ли обнять человека или просто подойти — исследователи интегрировали в систему большие языковые модели (LLM). Однако обычные LLM работают с текстом и плохо понимают 3D-конфигурации [31:52].

Для решения этой проблемы были представлены проекты ChatPose и ChatHuman [32:22]:

1.  **Проекционные слои:** Исследователи обучили специальные слои, которые переводят языковые токены напрямую в 3D-позы человеческого тела [33:17].
2.  **Понимание контекста:** Модель может интерпретировать сложные ситуации. Например, по фразе «мужчина делает предложение» робот понимает, что человек должен стоять на одном колене, и может предсказать его следующее движение [34:41].
3.  **Агентная система:** Робот-агент способен «читать» научные статьи по биомеханике и выбирать оптимальные инструменты для оценки высоты человека, его эмоций или траектории движения рук во время приготовления пищи [35:51].

## 🚀 Будущее: от зрения к эмпатии
[[JUMP:37:52]]

Несмотря на успехи, исследователи признают наличие ряда открытых проблем. Одной из главных является задержка вывода LLM (1–2 секунды), что недопустимо для роботов, работающих в динамичной среде [38:06]. 

В будущем планируется развивать следующие направления:

*   **Мультимодальное восприятие:** Добавление тактильных и тепловых датчиков (например, для роботов-сиделок, которым нужно чувствовать температуру воды при купании пациента) [38:46].
*   **Эмоциональная поддержка:** Робот должен выражать эмпатию через голос, мимику на дисплеях и тактильные жесты [39:38].
*   **Сбор данных:** Использование гуманоидов для создания «маховика данных» (flywheel), где каждое взаимодействие с человеком улучшает модель поведения робота [39:52].

В завершение семинара докладчики подчеркнули, что их цель — создать систему, которая будет не просто выполнять команды, но станет полноценным «социальным партнером», способным понимать физическое и эмоциональное состояние человека.