На семинаре в Стэнфордском университете Даниэле Гаммелли, постдок лаборатории Марко Говони, представил концепцию использования больших базовых моделей (Foundation Models) для обеспечения автономности космических миссий. По мнению спикера, мы вступаем в «золотой век» ИИ, где прорывы в области нейросетевых архитектур позволяют решить критические проблемы управления аппаратами в глубоком космосе. Исследование фокусируется на двух направлениях: адаптации архитектур трансформеров для планирования траекторий и использовании мультимодальных моделей, таких как Space-LLaVa, для интеллектуального анализа данных и принятия решений на борту.
🚀 Новая эра космической автономии 0:09
Современный стек технологий автономности переживает трансформацию благодаря трем ключевым факторам: эффективным методам 3D-реконструкции, высокопараллельному симулированию и появлению базовых моделей (LLM, VLM). Под базовыми моделями в лаборатории Марко Говони понимают нейросети, обученные на гигантских массивах данных в режиме самообучения (self-supervised), которые могут быть адаптированы для широкого спектра прикладных задач.
Основные характеристики базовых моделей:
- Масштабируемость: использование архитектур типа Transformer или диффузионных моделей.
- Универсальность: способность выполнять задачи, для которых они не обучались напрямую (zero-shot возможности).
- Мультимодальность: одновременная работа с текстом, изображениями и данными с датчиков.
🛰️ Траекторная оптимизация: метод «теплого старта» 2:43
Одной из сложнейших задач в космосе является автономное сближение и стыковка (rendezvous), требующие ювелирной оптимизации траектории. Гаммелли выделяет два конфликтующих требования: ограниченные вычислительные мощности космического оборудования (на порядки слабее земных процессоров) и жесткие требования к безопасности.
Существующие методы имеют свои недостатки:
- Аналитические методы: очень быстрые, но не универсальные, требуют глубокого понимания физики конкретной задачи.
- Численная оптимизация: универсальна, но крайне ресурсоемка, что затрудняет её использование на борту в реальном времени.
- Обучение нейросетей (Learning-based): эффективно и выразительно, но не дает строгих гарантий безопасности.
Инструмент: Autonomous Rendezvous Transformer (ART)
Для решения этой дилеммы команда предложила парадигму «теплого старта» (warm starting). Суть метода заключается в следующем:
- Этап обучения: Модель ART обучается на огромной базе предварительно рассчитанных траекторий, рассматривая состояния и команды управления как последовательность токенов (аналогично словам в LLM).
- Этап генерации: Для новой задачи трансформер мгновенно выдает «черновой», но близкий к оптимальному вариант траектории.
- Этап уточнения: Этот черновик подается в классический численный оптимизатор, который быстро доводит решение до идеала, гарантируя соблюдение всех физических ограничений и требований безопасности.
В ходе тестов на платформе «Free Flyer» (робот на гранитной подушке, имитирующий микрогравитацию) метод ART показал сокращение времени вычислений и более экономное использование топлива (firing time) по сравнению со стандартными методами.
🌠 Space-LLaVa: ИИ с «космическим здравым смыслом» 11:49
Второе направление работы — использование предобученных визуально-языковых моделей (VLM). Главная ценность таких моделей, по словам Гаммелли, заключается в наличии у них «здравого смысла» и семантического понимания контекста. Это критически важно для решения трех проблем:
- Масштабирование операций: Сейчас управление марсоходами требует огромных команд инженеров (эксплуатация Perseverance стоила около $300 млн), что не позволяет массово запускать миссии.
- Работа в неизвестности: Космос — это среда «zero-shot», где роботу часто приходится сталкиваться с условиями, которые невозможно было полностью смоделировать заранее.
- Мультимодальность: Космические роботы оснащены множеством датчиков, и одна модель должна уметь обрабатывать их все комплексно.
Создание специализированного набора данных
Поскольку большинство ИИ-моделей обучаются на «земных» данных, их знания о космосе ограничены. Команда Стэнфордского университета разработала автоматизированный конвейер для создания датасета Space-LLaVa:
- Аннотирование снимков: Использовались данные проекта «AI for Mars» (сегментированные маски ландшафтов). С помощью GPT-4 маски превращались в текстовые описания (песок, скалы, коренная порода).
- Сбор научных знаний: Из архива были взяты 1000 последних публикаций по астрофизике. На их основе GPT-4 сгенерировала 25 000 пар «вопрос-ответ» для обучения модели специфическим знаниям.
В результате дообученная модель Space-LLaVa превзошла базовую LLaVa в задачах распознавания типов грунта и сравнения ландшафтов, при этом сохранив общие интеллектуальные способности.
🌑 Кейс-стади: Луноход под присмотром ИИ 24:50
Спикер продемонстрировал работу VLM как высокоуровневого планировщика и монитора для лунохода в симуляции. В сценарии ровер должен добраться до посадочного модуля по точкам, заданным наземной командой.
Процесс принятия решения моделью:
- Входные данные: Модель получает снимки с бортовых камер ровера и вид сверху.
- Обнаружение рисков: ИИ замечает, что предложенный инженерами путь проходит через плохо освещенную зону с неровным рельефом (реголитом).
- Корректировка: Модель обосновывает опасность и предлагает альтернативный «зеленый» маршрут, избегающий опасных зон.
Этот пример иллюстрирует переход к гибким интерфейсам управления, где взаимодействие человека и робота происходит на естественном языке, а ИИ выступает в роли интеллектуального фильтра безопасности.
❓ Трудности и перспективы (Q&A) 30:16
В ходе сессии вопросов и ответов обсуждались критические аспекты внедрения таких систем.
Проблема разрыва между симуляцией и реальностью (Sim-to-Real) По словам Гаммелли, точных ответов пока нет, но стратегия заключается в искусственном зашумлении динамики при обучении. Это не дает модели «переобучиться» под идеальные условия симулятора и делает её более адаптивной к реальным отклонениям в космосе.
Гарантии безопасности и галлюцинации Спикер признал, что маленькие модели (7–13 млрд параметров) часто ведут себя нестабильно и могут не следовать инструкциям. Поэтому в критических задачах, таких как расчет траектории, нейросеть используется только для генерации начального приближения, а финальное слово остается за жестким математическим алгоритмом.
Будущее человеко-машинных интерфейсов Перспективным направлением считается использование LLM для генерации программного кода (например, для ROS — Robot Operating System). Оператор сможет задать цель голосом или текстом, а модель мгновенно создаст и запустит нужный программный блок для выполнения команды роботом.