Самита из Stanford: «Как роботам учиться в космосе, не перегружая экспертов»

В рамках научного семинара в Стэндфордском университете (Stanford University) Самита (Samita), исследовательница в области робототехники, представила доклад о методах адаптации автономных систем к меняющимся условиям. Основное внимание было уделено проблеме «сдвига распределения» (distribution shift) и тому, как роботы могут эффективно обучаться на новых данных прямо в процессе эксплуатации, минимизируя затраты на ручную разметку.

🤖 Архитектура автономности и проблема неожиданных условий 0:10

Современные роботы — от беспилотных автомобилей и дронов до автоматизированных складов и хирургических систем — опираются на так называемый «стек автономности» . Ключевым элементом этого стека является модель, которая принимает наблюдения ($X$), обрабатывает их с помощью весовых параметров ($\Theta$) и выдает прогноз. Этот прогноз затем используется планировщиком для формирования политики действий, которую контроллер переводит в низкоуровневые сигналы для актуаторов .

Самита подчеркивает, что при проектировании робототехники специалисты стараются сделать модель максимально устойчивой к любым условиям. Однако реальность такова, что во время развертывания условия эксплуатации неизбежно меняются — будь то окружающая среда или состояние самого робота . Системе необходимо реагировать на эти изменения своевременно, часто в режиме реального времени, до следующего сеанса связи с оператором.

🛰️ Кейс-стади: Определение положения спутника 2:05

В качестве практического примера исследовательница приводит задачу оценки позы (положения и ориентации) спутника по снимкам с камер . Это критически важно для таких задач, как:

траекторное сопровождение;
автономная стыковка в космосе;
сбор космического мусора .

Математически предполагается, что данные при обучении и эксплуатации распределены одинаково (IID — независимые и одинаково распределенные). Однако в космосе спутник может столкнуться с условиями, которых не было в обучающей выборке: бликами линз или ярким фоном Земли . Такие данные называются «выходящими за пределы распределения» (Out-of-Distribution, OOD). Игнорирование OOD-данных ведет к неверным прогнозам и, как следствие, к небезопасному поведению робота.

🔄 Жизненный цикл данных и алгоритм SCOD 3:36

Для решения проблемы Самита предлагает концепцию «пожизненного развертывания» (lifelong deployment), где цикл работы с данными состоит из четырех этапов:

Получение входных данных (изображений).
Мониторинг и обнаружение OOD на борту робота с использованием оценок неопределенности .
Отбор и пометка данных (expensive step): отправка наиболее важных кадров на Землю для ручной разметки человеком-экспертом .
Донастройка (fine-tuning) модели на новых данных.

Для реализации второго этапа используется алгоритм SCOD (Sketching Curvature for Out-of-Distribution Detection). Он основан на байесовских методах: на основе тренировочных данных строится апостериорное распределение весов модели. Когда поступает новый вход, SCOD вычисляет дистилляцию неопределенности. Если энтропия выходного распределения высока, кадр помечается как OOD .

📊 Интеллектуальный отбор: от неопределенности к разнообразию 9:40

Ключевой вклад исследования Самиты заключается в переходе от простого мониторинга к умному субсамплированию (подвыборке). Обычно системы выбирают для дообучения те кадры, в которых модель «наименее уверена» (highest uncertainty). Однако Самита утверждает, что этого недостаточно:

При высоком уровне неопределенности робот может выбрать 10 почти одинаковых кадров с одним и тем же типом помехи (например, солнечным бликом) .
Это неэффективно расходует пропускную способность канала связи и время эксперта-разметчика.

Вместо этого предложен метод SCOD-DS (Diverse Subsampling), который выбирает подмножество данных, максимально увеличивающее «информационную выгоду» (Information Gain) . Математически это решается как задача минимизации потери информации по сравнению с обработкой всего набора данных.

Результаты эксперимента:

Метод случайного отбора дает самую низкую точность при высокой стоимости.
Отбор по максимальной неопределенности работает лучше.
Разнообразный отбор (SCOD-DS) позволяет достичь точности, сравнимой с разметкой 100% данных, используя всего 50% бюджета на разметку .

❓ Вопросы и обсуждение перспектив 18:43

В ходе сессии вопросов и ответов были затронуты важные аспекты практического применения:

Проблема забывания: При постоянном дообучении на новых данных модель может начать «забывать» старые. Самита пояснила, что оценки неопределенности SCOD можно использовать для создания регуляризационного члена, который предотвращает утрату старых знаний .
Архитектура vs Параметры: На вопрос о том, достаточно ли просто менять веса (fine-tuning) или нужно менять саму архитектуру нейросети, спикер ответила, что для постепенных сдвигов (изменение освещения, погоды) донастройки достаточно. Если же сдвиг катастрофический, потребуется полная переработка модели .
Сферы применения: Наиболее подвержены сдвигам распределения системы машинного зрения в беспилотниках. Самита привела пример: дождь в Сан-Франциско визуально отличается от дождя в другом городе из-за размера капель и влажности, что является классическим дистрибутивным сдвигом . Также критичными являются деградация сенсоров со временем и ошибки в их физической установке (дрейф креплений) .

В завершение Самита упомянула, что ее команда разрабатывает открытый бенчмарк (open-source benchmark), который не зависит от конкретного приложения и позволяет сравнивать различные алгоритмы обнаружения и адаптации к OOD-данным .