В рамках научного семинара в Стэндфордском университете (Stanford University) Самита (Samita), исследовательница в области робототехники, представила доклад о методах адаптации автономных систем к меняющимся условиям. Основное внимание было уделено проблеме «сдвига распределения» (distribution shift) и тому, как роботы могут эффективно обучаться на новых данных прямо в процессе эксплуатации, минимизируя затраты на ручную разметку.
🤖 Архитектура автономности и проблема неожиданных условий 0:10
Современные роботы — от беспилотных автомобилей и дронов до автоматизированных складов и хирургических систем — опираются на так называемый «стек автономности» . Ключевым элементом этого стека является модель, которая принимает наблюдения ($X$), обрабатывает их с помощью весовых параметров ($\Theta$) и выдает прогноз. Этот прогноз затем используется планировщиком для формирования политики действий, которую контроллер переводит в низкоуровневые сигналы для актуаторов .
Самита подчеркивает, что при проектировании робототехники специалисты стараются сделать модель максимально устойчивой к любым условиям. Однако реальность такова, что во время развертывания условия эксплуатации неизбежно меняются — будь то окружающая среда или состояние самого робота . Системе необходимо реагировать на эти изменения своевременно, часто в режиме реального времени, до следующего сеанса связи с оператором.
🛰️ Кейс-стади: Определение положения спутника 2:05
В качестве практического примера исследовательница приводит задачу оценки позы (положения и ориентации) спутника по снимкам с камер . Это критически важно для таких задач, как:
Математически предполагается, что данные при обучении и эксплуатации распределены одинаково (IID — независимые и одинаково распределенные). Однако в космосе спутник может столкнуться с условиями, которых не было в обучающей выборке: бликами линз или ярким фоном Земли . Такие данные называются «выходящими за пределы распределения» (Out-of-Distribution, OOD). Игнорирование OOD-данных ведет к неверным прогнозам и, как следствие, к небезопасному поведению робота.
🔄 Жизненный цикл данных и алгоритм SCOD 3:36
Для решения проблемы Самита предлагает концепцию «пожизненного развертывания» (lifelong deployment), где цикл работы с данными состоит из четырех этапов:
- Получение входных данных (изображений).
- Мониторинг и обнаружение OOD на борту робота с использованием оценок неопределенности .
- Отбор и пометка данных (expensive step): отправка наиболее важных кадров на Землю для ручной разметки человеком-экспертом .
- Донастройка (fine-tuning) модели на новых данных.
Для реализации второго этапа используется алгоритм SCOD (Sketching Curvature for Out-of-Distribution Detection). Он основан на байесовских методах: на основе тренировочных данных строится апостериорное распределение весов модели. Когда поступает новый вход, SCOD вычисляет дистилляцию неопределенности. Если энтропия выходного распределения высока, кадр помечается как OOD .
📊 Интеллектуальный отбор: от неопределенности к разнообразию 9:40
Ключевой вклад исследования Самиты заключается в переходе от простого мониторинга к умному субсамплированию (подвыборке). Обычно системы выбирают для дообучения те кадры, в которых модель «наименее уверена» (highest uncertainty). Однако Самита утверждает, что этого недостаточно:
- При высоком уровне неопределенности робот может выбрать 10 почти одинаковых кадров с одним и тем же типом помехи (например, солнечным бликом) .
- Это неэффективно расходует пропускную способность канала связи и время эксперта-разметчика.
Вместо этого предложен метод SCOD-DS (Diverse Subsampling), который выбирает подмножество данных, максимально увеличивающее «информационную выгоду» (Information Gain) . Математически это решается как задача минимизации потери информации по сравнению с обработкой всего набора данных.
Результаты эксперимента:
- Метод случайного отбора дает самую низкую точность при высокой стоимости.
- Отбор по максимальной неопределенности работает лучше.
- Разнообразный отбор (SCOD-DS) позволяет достичь точности, сравнимой с разметкой 100% данных, используя всего 50% бюджета на разметку .
❓ Вопросы и обсуждение перспектив 18:43
В ходе сессии вопросов и ответов были затронуты важные аспекты практического применения:
- Проблема забывания: При постоянном дообучении на новых данных модель может начать «забывать» старые. Самита пояснила, что оценки неопределенности SCOD можно использовать для создания регуляризационного члена, который предотвращает утрату старых знаний .
- Архитектура vs Параметры: На вопрос о том, достаточно ли просто менять веса (fine-tuning) или нужно менять саму архитектуру нейросети, спикер ответила, что для постепенных сдвигов (изменение освещения, погоды) донастройки достаточно. Если же сдвиг катастрофический, потребуется полная переработка модели .
- Сферы применения: Наиболее подвержены сдвигам распределения системы машинного зрения в беспилотниках. Самита привела пример: дождь в Сан-Франциско визуально отличается от дождя в другом городе из-за размера капель и влажности, что является классическим дистрибутивным сдвигом . Также критичными являются деградация сенсоров со временем и ошибки в их физической установке (дрейф креплений) .
В завершение Самита упомянула, что ее команда разрабатывает открытый бенчмарк (open-source benchmark), который не зависит от конкретного приложения и позволяет сравнивать различные алгоритмы обнаружения и адаптации к OOD-данным .