Gemini Robotics: как ИИ учится управлять физическим миром?

Роботизация и ИИ: Как Google DeepMind приближает эру Gemini Robotics 0:00

Робототехника сегодня находится на пороге качественного скачка, аналогичного переходу от моделей GPT-3 к GPT-3.5 в мире языковых технологий. Исследователи Google DeepMind Киртхана (Keerthana) и Тед (Ted) представили технический отчет Gemini Robotics, описывающий новый подход к внедрению ИИ в физический мир, где фундаментальные возможности базовых моделей становятся основой для управления роботами. Участники интервью обсуждают, почему объединение облачного «мозга» с локальными «спинными» системами управления является ключом к созданию по-настоящему полезных и автономных роботов.

🤖 Эволюция интеллекта роботов 4:08

Спустя год после предыдущей беседы в подкасте The Cognitive Revolution, индустрия робототехники существенно продвинулась вперед. По мнению Киртханы, если два года назад робототехника находилась на стадии «GPT-2» (малополезные эксперименты), то сегодня она достигла уровня «GPT-3 — 3.5».

Основные изменения за год:

Имитационное обучение: Стало общепринятым стандартом, доказавшим свою эффективность.
Движение: Алгоритмы ходьбы для гуманоидов (locomotion) стали работать стабильно для многих команд.
Масштабирование: Сообщество вышло за рамки простых лабораторных столов, перейдя к сложным коммерческим задачам.
Интерес инвесторов: Венчурные фонды активно вкладываются в стартапы, что ускоряет конкуренцию и коммерциализацию.

Тед отмечает, что, в отличие от ChatGPT, робототехнике не хватает «дешевого потребительского оборудования», которое позволило бы каждому испытать «роботизированный мозг». Это создает проблему «курицы и яйца»: нужны данные для обучения моделей, но нужны и роботы для сбора этих данных.

🧠 Архитектура: Мозг в облаке, спинной мозг — на устройстве 23:06

Современный стек Gemini Robotics представляет собой распределенную систему, состоящую из двух ключевых компонентов, которые работают в тандеме:

Gemini Robotics ER (Embodied Reasoning): Модель в облаке, отвечающая за высокоуровневое понимание ситуации и планирование. Она обновляет планы каждые 250 миллисекунд.
Gemini Robotics Actions Model (VA): Модель, дистиллирующая знания из «облачного мозга». Она частично работает на самом роботе, выдавая низкоуровневые команды управления двигателями с частотой 50 Гц.

По словам Киртханы, это не просто «наслоение» алгоритмов, а стремление к созданию более целостной системы. Локальная часть системы — «спинной мозг» — обеспечивает быстрые реакции, например, если объект начинает выскальзывать из руки робота.

📐 Бенчмарк ERQA и возможности роботов 12:33

Для оценки способностей моделей был создан бенчмарк Embodied Reasoning QA (ERQA). Он проверяет фундаментальные навыки: пространственное мышление (понимание слов «большой/маленький», «влево/вправо»), оценку состояния объектов (открыт ящик или закрыт) и логику причинно-следственных связей.

Впечатляющие примеры возможностей моделей включают:

Использование кухонных щипцов для манипуляций.
Складывание коробок из оригами.
Открытие зип-пакетов и сортировка предметов.

Киртхана подчеркивает, что это не «запрограммированные» действия: модель демонстрирует высокую точность и обобщение, используя возможности базовой модели Gemini, даже без узкой донастройки (fine-tuning).

🛡️ Безопасность и «оборона в глубину» 57:10

Вопрос безопасности остается критическим. Тед и Киртхана отмечают, что роботы должны обладать встроенным «здравым смыслом», чтобы не выполнять вредоносные инструкции (например, налить кипяток в мусорное ведро).

Стратегия безопасности строится на нескольких уровнях:

Семантическая безопасность: Отказ от выполнения вредоносных действий на уровне модели.
Операционная безопасность: Использование кнопок экстренной остановки (estops) и физических ограничений силы.
Профилактика: Обучение на датасете Asimov, содержащем сценарии, помогающие роботу избегать опасного поведения.

Оба спикера признают: роботы пока не готовы к тому, чтобы оставаться наедине с маленькими детьми без присмотра, так как «длинный хвост» редких ошибок всё еще существует.

📈 Будущее: Данные и форма роботов 1:04:00

Главным препятствием для прогресса Тед называет нехватку качественных данных. Для перехода на следующий уровень обучения (требуются триллионы токенов) индустрии придется переходить от сбора данных вручную к использованию синтетических данных и видеогенерации.

Что касается гуманоидных роботов, Киртхана и Тед расходятся в оценках их практического применения:

Киртхана считает, что изучение гуманоидов — это необходимый путь развития, открывающий новые горизонты (манипуляция пальцами, использование всего тела для баланса).
Тед полагает, что гуманоиды — это сложнейшая инженерная задача, и хотя она вдохновляет исследователей, для массового внедрения в быт могут подойти более простые форм-факторы.