„Мы рассматриваем роботов как токены“: новая архитектура управления роем

Будущее коллективной робототехники: от физики к генеративному ИИ 0:10

Управление большими группами роботов — одна из самых сложных и динамично развивающихся задач в современной робототехнике. На недавнем семинаре в Стэнфордском университете (Stanford University) исследователи из Университета Сарагосы представили подходы, объединяющие классическую теорию управления с современными методами машинного обучения, такими как механизмы внимания (self-attention) и генеративные модели.

🤖 Масштабируемое управление на низком уровне 7:07

Основная проблема классических распределенных алгоритмов (например, моделей «флокинга» или алгоритмов консенсуса) заключается в их ограниченности при столкновении со сложными, динамически меняющимися условиями реального мира. Исследователи предложили новый метод обучения многоагентных политик, который опирается на три ключевых свойства:

Масштабируемость: Модель должна работать одинаково эффективно как с тремя, так и с тремя тысячами агентов. Цель — обучать не «поведение стада», а «поведение отдельной особи».
Распределенное исполнение: Каждый робот принимает решения, основываясь только на локальной информации, доступной через сенсоры или ограниченный обмен данными с соседями.
Физическая интерпретируемость: Вместо использования «черных ящиков», исследователи интегрируют в модели физические ограничения и принципы, такие как уравнения Гамильтона.

Для реализации этих принципов была разработана архитектура на основе self-attention (механизма самовнимания), вдохновленная большими языковыми моделями (LLM). В этой системе каждый робот рассматривается как «токен». Сеть динамически оценивает взаимосвязи между соседями, независимо от их количества.

Физически обоснованные нейросети 13:35

Для обеспечения физической корректности движений роботов используется формализм Гамильтоновых систем. Моделирование системы как энергетической структуры позволяет гарантировать стабильность: например, комбинация нескольких Гамильтоновых систем сама является Гамильтоновой системой.

Обучение: Нейронные сети обучаются не просто «открытому» управлению, а желаемой динамике «замкнутого» контура. Это позволяет системе оставаться агностической по отношению к конкретному типу робота (будь то дрон, колесный робот или шагающая платформа).
Извлечение действий: Используя методы управления на основе пассивности (passivity-based control), исследователи могут «вычислять» необходимые локальные действия для каждого отдельного робота, исходя из общей желаемой динамики всей группы.

🎨 Генеративный ИИ для высокоуровневого планирования 27:13

Помимо низкоуровневого управления, команда исследовала способы задания глобальных целей для роя, используя аналогию с моделями генерации изображений, такими как DALL-E.

Диффузионные модели и поток (Flow Matching) 29:34

Изначально исследователи пробовали использовать диффузионные модели (DPM) для формирования облаков точек (3D-позиций роботов), но столкнулись с проблемами столкновений и нереалистичными траекториями. Решением стало внедрение метода conditional flow matching (сопоставление потоков), который учит систему «скорости изменения» конфигурации в непрерывном времени.

Gen-Swarms: Так авторы назвали свой подход, где генеративная модель создает непрерывную эталонную траекторию, а реактивный контроллер (алгоритм ORCA) обеспечивает безопасное обхождение препятствий на каждом шаге.

📈 Результаты и ограничения 24:14

Разработанные алгоритмы продемонстрировали высокую эффективность:

Zero-shot перенос: Политики, обученные в симуляторе с голономными (способными двигаться в любом направлении) роботами, успешно переносились на реальные платформы с неголономной динамикой.
Ограничения: На данный момент модели имеют сложности с гетерогенными командами (разными типами роботов в одной группе) и требуют предварительного обучения на равномерных распределениях, что затрудняет переход между двумя сформированными конфигурациями «на лету».

Авторы подчеркивают, что исследования находятся на предварительной стадии. Будущая работа будет сосредоточена на долгосрочном планировании сложных задач с множеством этапов и интеграции более глубокого понимания контекста среды.