Самита из Stanford: «Как роботам учиться в космосе, не перегружая экспертов»

Stanford Online 2,2 тыс. 22 мин 4 мин 24.05.2024
Главное

В рамках научного семинара в Стэндфордском университете (Stanford University) Самита (Samita), исследовательница в области робототехники, представила доклад о методах адаптации автономных систем к меняющимся условиям. Основное внимание было уделено проблеме «сдвига распределения» (distribution shift) и тому, как роботы могут эффективно обучаться на новых данных прямо в процессе эксплуатации, минимизируя затраты на ручную разметку.

🤖 Архитектура автономности и проблема неожиданных условий 0:10

Современные роботы — от беспилотных автомобилей и дронов до автоматизированных складов и хирургических систем — опираются на так называемый «стек автономности» . Ключевым элементом этого стека является модель, которая принимает наблюдения ($X$), обрабатывает их с помощью весовых параметров ($\Theta$) и выдает прогноз. Этот прогноз затем используется планировщиком для формирования политики действий, которую контроллер переводит в низкоуровневые сигналы для актуаторов .

Самита подчеркивает, что при проектировании робототехники специалисты стараются сделать модель максимально устойчивой к любым условиям. Однако реальность такова, что во время развертывания условия эксплуатации неизбежно меняются — будь то окружающая среда или состояние самого робота . Системе необходимо реагировать на эти изменения своевременно, часто в режиме реального времени, до следующего сеанса связи с оператором.

🛰️ Кейс-стади: Определение положения спутника 2:05

В качестве практического примера исследовательница приводит задачу оценки позы (положения и ориентации) спутника по снимкам с камер . Это критически важно для таких задач, как:

Математически предполагается, что данные при обучении и эксплуатации распределены одинаково (IID — независимые и одинаково распределенные). Однако в космосе спутник может столкнуться с условиями, которых не было в обучающей выборке: бликами линз или ярким фоном Земли . Такие данные называются «выходящими за пределы распределения» (Out-of-Distribution, OOD). Игнорирование OOD-данных ведет к неверным прогнозам и, как следствие, к небезопасному поведению робота.

🔄 Жизненный цикл данных и алгоритм SCOD 3:36

Для решения проблемы Самита предлагает концепцию «пожизненного развертывания» (lifelong deployment), где цикл работы с данными состоит из четырех этапов:

  1. Получение входных данных (изображений).
  2. Мониторинг и обнаружение OOD на борту робота с использованием оценок неопределенности .
  3. Отбор и пометка данных (expensive step): отправка наиболее важных кадров на Землю для ручной разметки человеком-экспертом .
  4. Донастройка (fine-tuning) модели на новых данных.

Для реализации второго этапа используется алгоритм SCOD (Sketching Curvature for Out-of-Distribution Detection). Он основан на байесовских методах: на основе тренировочных данных строится апостериорное распределение весов модели. Когда поступает новый вход, SCOD вычисляет дистилляцию неопределенности. Если энтропия выходного распределения высока, кадр помечается как OOD .

📊 Интеллектуальный отбор: от неопределенности к разнообразию 9:40

Ключевой вклад исследования Самиты заключается в переходе от простого мониторинга к умному субсамплированию (подвыборке). Обычно системы выбирают для дообучения те кадры, в которых модель «наименее уверена» (highest uncertainty). Однако Самита утверждает, что этого недостаточно:

Вместо этого предложен метод SCOD-DS (Diverse Subsampling), который выбирает подмножество данных, максимально увеличивающее «информационную выгоду» (Information Gain) . Математически это решается как задача минимизации потери информации по сравнению с обработкой всего набора данных.

Результаты эксперимента:

❓ Вопросы и обсуждение перспектив 18:43

В ходе сессии вопросов и ответов были затронуты важные аспекты практического применения:

В завершение Самита упомянула, что ее команда разрабатывает открытый бенчмарк (open-source benchmark), который не зависит от конкретного приложения и позволяет сравнивать различные алгоритмы обнаружения и адаптации к OOD-данным .

💬 Цитаты

«Мы хотим не просто обнаруживать выход за пределы распределения, но и уметь адаптироваться к этому, замыкая цикл обучения.»

«Дождь в Сан-Франциско отличается от дождя в других городах — это само по себе является сдвигом распределения, к которому робот должен адаптироваться.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Out-of-Distribution (OOD)
Данные, которые существенно отличаются от тех, на которых обучалась нейросеть.
IID
Математическое предположение о том, что данные независимы и одинаково распределены.
Pose Estimation
Задача определения положения (X, Y, Z) и ориентации объекта в пространстве.
Jacobian (Якобиан)
Матрица частных производных, используемая в данном контексте для линеаризации модели и оценки Information Gain.
📊 Цифры
⚖️ Другая сторона
Инженерия Stanford University SCOD Out-of-Distribution Robotics Machine Learning