# Самита из Stanford: «Как роботам учиться в космосе, не перегружая экспертов»

Источник: https://www.youtube.com/watch?v=N0kOc30HBJY
Канал: Stanford Online
Опубликовано: 24.05.2024

---

В рамках научного семинара в Стэндфордском университете (Stanford University) Самита (Samita), исследовательница в области робототехники, представила доклад о методах адаптации автономных систем к меняющимся условиям. Основное внимание было уделено проблеме «сдвига распределения» (distribution shift) и тому, как роботы могут эффективно обучаться на новых данных прямо в процессе эксплуатации, минимизируя затраты на ручную разметку.

## 🤖 Архитектура автономности и проблема неожиданных условий
[[JUMP:00:10]]

Современные роботы — от беспилотных автомобилей и дронов до автоматизированных складов и хирургических систем — опираются на так называемый «стек автономности» [00:23]. Ключевым элементом этого стека является модель, которая принимает наблюдения ($X$), обрабатывает их с помощью весовых параметров ($\Theta$) и выдает прогноз. Этот прогноз затем используется планировщиком для формирования политики действий, которую контроллер переводит в низкоуровневые сигналы для актуаторов [00:54].

Самита подчеркивает, что при проектировании робототехники специалисты стараются сделать модель максимально устойчивой к любым условиям. Однако реальность такова, что во время развертывания условия эксплуатации неизбежно меняются — будь то окружающая среда или состояние самого робота [01:26]. Системе необходимо реагировать на эти изменения своевременно, часто в режиме реального времени, до следующего сеанса связи с оператором.

## 🛰️ Кейс-стади: Определение положения спутника
[[JUMP:02:05]]

В качестве практического примера исследовательница приводит задачу оценки позы (положения и ориентации) спутника по снимкам с камер [02:05]. Это критически важно для таких задач, как:

*   траекторное сопровождение;
*   автономная стыковка в космосе;
*   сбор космического мусора [02:32].

Математически предполагается, что данные при обучении и эксплуатации распределены одинаково (IID — независимые и одинаково распределенные). Однако в космосе спутник может столкнуться с условиями, которых не было в обучающей выборке: бликами линз или ярким фоном Земли [03:11]. Такие данные называются «выходящими за пределы распределения» (Out-of-Distribution, OOD). Игнорирование OOD-данных ведет к неверным прогнозам и, как следствие, к небезопасному поведению робота.

## 🔄 Жизненный цикл данных и алгоритм SCOD
[[JUMP:03:36]]

Для решения проблемы Самита предлагает концепцию «пожизненного развертывания» (lifelong deployment), где цикл работы с данными состоит из четырех этапов:

1.  **Получение входных данных** (изображений).
2.  **Мониторинг и обнаружение OOD** на борту робота с использованием оценок неопределенности [04:03].
3.  **Отбор и пометка данных** (expensive step): отправка наиболее важных кадров на Землю для ручной разметки человеком-экспертом [04:45].
4.  **Донастройка (fine-tuning)** модели на новых данных.

Для реализации второго этапа используется алгоритм SCOD (Sketching Curvature for Out-of-Distribution Detection). Он основан на байесовских методах: на основе тренировочных данных строится апостериорное распределение весов модели. Когда поступает новый вход, SCOD вычисляет дистилляцию неопределенности. Если энтропия выходного распределения высока, кадр помечается как OOD [07:04].

## 📊 Интеллектуальный отбор: от неопределенности к разнообразию
[[JUMP:09:40]]

Ключевой вклад исследования Самиты заключается в переходе от простого мониторинга к умному субсамплированию (подвыборке). Обычно системы выбирают для дообучения те кадры, в которых модель «наименее уверена» (highest uncertainty). Однако Самита утверждает, что этого недостаточно:

*   При высоком уровне неопределенности робот может выбрать 10 почти одинаковых кадров с одним и тем же типом помехи (например, солнечным бликом) [09:26].
*   Это неэффективно расходует пропускную способность канала связи и время эксперта-разметчика.

Вместо этого предложен метод **SCOD-DS** (Diverse Subsampling), который выбирает подмножество данных, максимально увеличивающее «информационную выгоду» (Information Gain) [13:26]. Математически это решается как задача минимизации потери информации по сравнению с обработкой всего набора данных.

**Результаты эксперимента:**

*   Метод случайного отбора дает самую низкую точность при высокой стоимости.
*   Отбор по максимальной неопределенности работает лучше.
*   **Разнообразный отбор (SCOD-DS)** позволяет достичь точности, сравнимой с разметкой 100% данных, используя всего 50% бюджета на разметку [16:54].

## ❓ Вопросы и обсуждение перспектив
[[JUMP:18:43]]

В ходе сессии вопросов и ответов были затронуты важные аспекты практического применения:

*   **Проблема забывания:** При постоянном дообучении на новых данных модель может начать «забывать» старые. Самита пояснила, что оценки неопределенности SCOD можно использовать для создания регуляризационного члена, который предотвращает утрату старых знаний [17:35].
*   **Архитектура vs Параметры:** На вопрос о том, достаточно ли просто менять веса (fine-tuning) или нужно менять саму архитектуру нейросети, спикер ответила, что для постепенных сдвигов (изменение освещения, погоды) донастройки достаточно. Если же сдвиг катастрофический, потребуется полная переработка модели [19:47].
*   **Сферы применения:** Наиболее подвержены сдвигам распределения системы машинного зрения в беспилотниках. Самита привела пример: дождь в Сан-Франциско визуально отличается от дождя в другом городе из-за размера капель и влажности, что является классическим дистрибутивным сдвигом [21:05]. Также критичными являются деградация сенсоров со временем и ошибки в их физической установке (дрейф креплений) [21:43].

В завершение Самита упомянула, что ее команда разрабатывает открытый бенчмарк (open-source benchmark), который не зависит от конкретного приложения и позволяет сравнивать различные алгоритмы обнаружения и адаптации к OOD-данным [17:08].