# Устойчивая автономность: как роботы учатся навигации без GPS и света

Источник: https://www.youtube.com/watch?v=PYh9k4cy25w
Канал: Stanford Online
Опубликовано: 23.01.2026

---

На зимнем научном семинаре по робототехнике в Стэнфордском университете (Winter 2026) был представлен подробный доклад, посвященный созданию систем устойчивой автономности (resilient autonomy) для роботов нового поколения. Спикер описал передовые подходы к машинному зрению, локализации и планированию траекторий, которые позволяют беспилотникам и наземным аппаратам эффективно работать в условиях полной изоляции, отсутствия GPS и деградации сенсоров. Ключевой идеей выступления стала концепция единого универсального энкодера, способного обрабатывать визуальные данные всего один раз для одновременного решения множества прикладных задач на борту.

## 🛡️ Концепция устойчивой автономности и вызовы экстремальных сред
[[JUMP:0:05]]

### Подземные миссии и требования к живучести систем
Разработка робототехнических комплексов для исследования экстремальных пространств началась в лаборатории спикера несколько лет назад в рамках подготовки к технологическому турниру DARPA SubT. В этих миссиях разнородные команды, состоящие из беспилотных летательных аппаратов, колесных роботов и четвероногих платформ (квадрупедов), должны были полностью автономно изучать лабиринты, пещеры и заброшенные индустриальные объекты. Полная автономность в таких сценариях является вынужденной мерой, поскольку из-за плотных скальных пород и бетонных перекрытий связь с базовой станцией либо полностью отсутствует, либо появляется лишь периодически.

По определению докладчика, устойчивость автономной системы (resiliency) не является врожденным свойством робота, а измеряется как динамический показатель эффективности, который складывается из трех базовых компонентов:

* Надежность (robustness)
* Избыточность (redundancy)
* Находчивость и гибкость архитектуры (resourcefulness)

### Критика современных трендов академической робототехники
Докладчик критически отозвался о текущих трендах в академической среде, отметив, что сегодня исследователи слишком сильно сфокусированы на чистой производительности (performance) алгоритмов. Такой подход неизбежно ведет к хрупкости систем при их столкновении с реальным миром. В условиях реальных миссий инженерам необходимо смещать баланс в сторону отказоустойчивости, выполняя все вычисления исключительно на борту аппарата. Бортовой компьютер должен в реальном времени строить карту, распознавать объекты и корректировать маршруты. Традиционные, созданные вручную (handcrafted) архитектуры навигации (SLAM), задействованные на ранних этапах соревнований, показали свою уязвимость перед лицом пылевых облаков, отсутствия визуальных ориентиров и динамического изменения среды.

## 🗺️ MapAnything: единый фронтенд для трехмерной реконструкции
[[JUMP:07:41]]

### Избыточность вычислений и архитектурный прорыв
Одной из главных вычислительных проблем современной робототехники выступает фрагментация моделей: для детектирования объектов, построения геометрии (SLAM) и управления (VLA) обычно запускаются отдельные нейросети. На скромных бортовых графических процессорах (GPU) дронов это мгновенно приводит к дефициту памяти и падению частоты кадров. Чтобы преодолеть это ограничение, команда исследователей разработала модель MapAnything, реализующую принцип «обработай пиксель один раз — используй везде». Система на основе одного универсального энкодера способна параллельно выполнять монокулярную оценку глубины, структуру из движения (SFM), дополнение карт глубины и локализацию.

### Сравнение с аналогами и полевые тесты
Докладчик сопоставил MapAnything с существующими популярными аналогами, выделив ряд принципиальных преимуществ новой архитектуры:

* В отличие от модели DUSt3R, требующей прогнозирования нескольких голов GPT, и модели VGGT, страдающей от избыточности предсказаний, MapAnything использует компактный факторизованный вывод с одной головой GPT.
* Архитектура прогнозирует масштаб и направления лучей (ray directions), что заменяет фиксированную модель камеры и позволяет работать с произвольными объективами без предварительной калибровки.
* Модель обладает гибкими входами: в нее можно передавать как сырые монокулярные изображения, так и вспомогательные данные (уже известные позы или сторонние карты глубины) для их сквозного уточнения.

Для обучения нейросети использовались высокоточные синтетические датасеты, поскольку получить идеальную трехмерную разметку и траектории в запыленных реальных шахтах технически невозможно. В ходе верификации монокулярная версия MapAnything сравнивалась со стереоскопической визуально-инерциальной одометрией коммерческой камеры ZED-X. Результаты тестов показали, что алгоритм MapAnything демонстрирует значительно меньший уровень накопленного дрейфа (drift). При этом скорость работы на паре изображений составляет стабильные 15–16 Гц. Впоследствии авторы расширили архитектуру до 4D-пространства, интегрировав модуль оценки динамических потоков сцены (scene flow) и поддержку сигналов с доплеровских радаров.

## 🌡️ AnyThermal и преодоление дефицита данных ночного видения
[[JUMP:15:31]]

### Преодоление дефицита данных ночного зрения
Обычные оптические камеры становятся бесполезными при полетах в сплошном тумане, облаках пыли или в полной темноте, что вынуждает инженеров переходить на длинноволновые инфракрасные (thermal) камеры. Главным препятствием для внедрения тепловизоров в робототехнику является критическая нехватка качественных размеченных датасетов по сравнению со стандартными RGB-изображениями. Чтобы решить эту проблему без масштабной ручной разметки, исследователи создали архитектуру AnyThermal. За основу была взята мощная визуальная модель DinoV2, признаки которой были пиксельно выровнены и адаптированы под инфракрасный спектр посредством таргетного дообучения (fine-tuning). Благодаря этому базовые алгоритмы сегментации и распознавания локаций, созданные для обычного зрения, смогли работать с тепловизионным сигналом напрямую, без изменения верхнеуровневых слоев.

### Полевая платформа и «жесткое правило» лаборатории
Для сбора реальной информации ученые спроектировали открытую аппаратную платформу, включающую в себя:

* Оптическую стереокамеру ZED-X и синхронизированный стереотепловизор
* Вычислительный модуль NVIDIA Jetson Orin AGX
* Автономный блок питания и физическую кнопку старта записи

Спикер отдельно акцентировал внимание на наличии физической кнопки, поделившись строгим регламентом своей лаборатории: «Никакого ввода с клавиатуры во время полевых испытаний» (no typing in the field). Это обусловлено суровыми условиями тестирования: в холодных сырых шахтах у инженеров замерзают руки, из-за чего набрать команду на клавиатуре ноутбука становится невыполнимой задачей. С помощью разработанного устройства был собран масштабный синхронизированный датасет TartanRGBT. Статистика испытаний подтверждает, что по мере насыщения сети новыми инфракрасными сценариями точность навигации линейно растет. В настоящий момент команда работает над добавлением в этот измерительный комплекс радаров и лидаров нового поколения.

## 🧠 Инерциальная одометрия и сферическая свёртка для панорамного зрения
[[JUMP:20:00]]

### Экстремальный тест инерциальной навигации
Дополнительным вектором повышения живучести роботов стала глубокая интеграция данных с инерциальных измерительных блоков (IMU). В рамках эксперимента исследователи намеренно программно отключали показания лидара во время протяженного 40-минутного ночного заезда робота по территории кампуса Университета Карнеги — Меллона (CMU). Аппарат целенаправленно направляли в самые сложные локации: на темные открытые поля, узкие лестничные пролеты и абсолютно безликие коридоры. В итоге построенная карта сохранила свою геометрию, а финальная погрешность оказалась минимальной. Этого удалось достичь за счет динамического обучения модели IMU «на лету»: алгоритм непрерывно калибровал внутренние параметры датчика по лидару, пока тот функционировал, а в моменты его деградации полностью переходил на чистую инерциальную интеграцию. Докладчик напомнил, что ключевое преимущество качественного IMU — его абсолютная защищенность от внешних помех и ослепления.

### Геометрия «рыбьего глаза» и сферические свёртки
Параллельно команда решает проблему корректной обработки данных с панорамных камер типа «рыбий глаз» (fisheye), которые активно внедряются на дронах и антропоморфных роботах для обеспечения кругового обзора. Стандартные сверточные нейросети демонстрируют неудовлетворительные результаты при работе с ними, так как радиальные искажения пикселей нелинейно нарастают от центра к краям кадра. Традиционное выпрямление картинок в плоские виртуальные проекции требует колоссальных вычислительных мощностей бортового процессора. Вместо этого инженеры предложили переносить изображения напрямую в каноническое сферическое пространство. В этой геометрии производится математический ресемплинг для выравнивания плотности пикселей, после чего применяются оригинальные операции сферической свёртки (spherical convolution) и сферического пулинга (spherical pooling). При оценке только радиального расстояния до точек такая свёртка приобретает свойство ротационной эквивариантности, что гарантирует стабильность визуального восприятия робота при резких пространственных разворотах и кувырках в воздухе.

## 🔄 Единое сопоставление пикселей и семантическая навигация дальнего действия
[[JUMP:26:27]]

### Поиск пиксельных соответствий с помощью UFM
Для решения фундаментальной задачи компьютерного зрения — нахождения пространственных соответствий между кадрами (correspondence) — была представлена модель UFM (Unified Flow and Matching). Данный метод концептуально объединяет сопоставление изображений с широкой базой (wide baseline matching) и расчет оптического потока (optical flow). На вход подаются глубокие признаки DinoV2, которые затем обрабатываются специализированным механизмом self-attention. Важнейшим элементом архитектуры выступает блок оценки совместной видимости (co-visibility). Он блокирует попытки нейросети рассчитать векторы движения для тех зон кадра, которые перекрыты или вышли за пределы обзора, что исключает появление критических галлюцинаций. На базе UFM ученые создали алгоритм стереофонической визуальной одометрии MAC-VO, который благодаря математически точной оценке неопределенности (uncertainty estimation) эффективно отбирает наиболее надежные опорные точки для расчета траектории.

### RayFronts: преодоление барьера дальности датчиков
При переходе от локальной навигации к семантическому планированию на больших дистанциях инженеры столкнулись со следующим барьером: робот отчетливо видит далекий целевой объект (например, водонапорную башню), но не может внести его в метрическую 3D-карту, поскольку расстояние до него значительно превышает рабочий диапазон бортовых сенсоров глубины. В качестве решения была спроектирована гибридная модель RayFronts. Она состоит из двух параллельных слоев:

* Явная трехмерная семантическая карта вокселей на базе структуры OpenVDB (оптимизированное неглубокое октарное дерево), описывающая ближнюю зону робота и фиксирующая занятые препятствиями объемы (occupancy map).
* Набор направленных семантических лучей (ray-based vectors), которые привязываются к крайним точкам известной карты (фронтирам) и транслируют информацию о направлении на объекты, находящиеся далеко за пределами видимости сенсоров глубины.

Эта открытая семантическая система (open-set representation) позволяет осуществлять навигацию по текстовым запросам с привлечением мультимодальных языковых моделей (LVLM). Если искомая цель присутствует в ближней зоне, робот прокладывает физический маршрут по воксельной карте; если же цель расположена на горизонте, робот ориентируется на сохраненный вектор луча RayFronts и движется в его направлении, постепенно достраивая карту по мере приближения.

## 🛸 Воздушное манипулирование, офф-роуд и новые вызовы DARPA
[[JUMP:38:25]]

### Воздушные манипуляции и беспилотный офф-роуд
В заключительной части доклада спикер продемонстрировал серию прикладных видеороликов, иллюстрирующих работу алгоритмов на реальном оборудовании. В сегменте беспилотной авиации была представлена система предотвращения столкновений «detect and avoid» на базе функций барьеров безопасности (CBF). Алгоритм детектирует встречные объекты силами бортового вычислителя в условиях полного отсутствия GPS и обеспечивает безопасное расхождение дронов при относительных скоростях сближения до 136 км/ч. 

Другим проектом стал комплекс роботизированного манипулирования с воздуха: полностью управляемый гексакоптер, оснащенный многозвенной механической рукой на верхней плоскости корпуса. Контроль всей системы завязан на позиционирование конечной точки манипулятора (end-effector-centric whole-body control). Дрон обучается на демонстрационных примерах, собираемых человеком посредством телеоперации, формируя диффузионную политику управления (diffusion policy), которая непрерывно оптимизируется прогностическим алгоритмом MPC (Model Predictive Control) для эффективной компенсации постоянных воздушных колебаний и завихрений.

В сфере автономного движения по пересеченной местности (off-road driving) команда полностью отказалась от ручной разметки препятствий. Вместо этого применяется концепция самообучения и имитационного обучения (imitation and self-supervised learning): машина движется по бездорожью, фиксирует собственный негативный опыт (удары, пробуксовки) и на его основе динамически обновляет карту стоимости путей (cost map). Такие испытания осуществляются в том числе в ночное время с использованием стереотепловизоров без применения активной подсветки. Спикер с улыбкой добавил, что полевые тесты в темноте — это крайне нервный процесс для студентов, которые вынуждены ориентироваться исключительно по экранам мониторов, физически не видя робота в темноте.

### Гуманитарная миссия DARPA и критика универсальных моделей
В настоящее время лаборатория активно включилась в новый масштабный проект — DARPA Triage Challenge. Его цель заключается в создании сплоченных робототехнических групп для автономного поиска, локализации и первичной медицинской оценки состояния пострадавших в зонах техногенных и природных катастроф с большим количеством жертв до того, как туда смогут безопасно добраться первые спасательные отряды.

В финале своего выступления докладчик озвучил спорный философский тезис, идущий вразрез с популярным сегодня трендом на создание глобальных моделей мира (world models). По его мнению, единой универсальной модели мира существовать не может, поскольку единственной абсолютно точной моделью является сам физический мир, а любая программная абстракция неизбежно ошибочна. Спикер глубоко убежден, что робототехнике необходимы исключительно экономичные, ориентированные на конкретную деятельность (task-conditioned) локальные модели, где глубина абстракции жестко диктуется текущей задачей. В качестве примера он привел обычный ноутбук: для задачи пространственного обхода роботом достаточно воспринимать его как единый монолитный объект, но если перед манипулятором встанет задача извлечь из него жесткий диск, робот будет обязан построить детальную модель на уровне каждого отдельного крепежного винтика.