Gemini Robotics: как ИИ учится управлять физическим миром?

The Cognitive Revolution 25,7 тыс. 1 ч 48 мин 3 мин 17.05.2025
Главное

Роботизация и ИИ: Как Google DeepMind приближает эру Gemini Robotics 0:00

Робототехника сегодня находится на пороге качественного скачка, аналогичного переходу от моделей GPT-3 к GPT-3.5 в мире языковых технологий. Исследователи Google DeepMind Киртхана (Keerthana) и Тед (Ted) представили технический отчет Gemini Robotics, описывающий новый подход к внедрению ИИ в физический мир, где фундаментальные возможности базовых моделей становятся основой для управления роботами. Участники интервью обсуждают, почему объединение облачного «мозга» с локальными «спинными» системами управления является ключом к созданию по-настоящему полезных и автономных роботов.

🤖 Эволюция интеллекта роботов 4:08

Спустя год после предыдущей беседы в подкасте The Cognitive Revolution, индустрия робототехники существенно продвинулась вперед. По мнению Киртханы, если два года назад робототехника находилась на стадии «GPT-2» (малополезные эксперименты), то сегодня она достигла уровня «GPT-3 — 3.5».

Основные изменения за год:

Тед отмечает, что, в отличие от ChatGPT, робототехнике не хватает «дешевого потребительского оборудования», которое позволило бы каждому испытать «роботизированный мозг». Это создает проблему «курицы и яйца»: нужны данные для обучения моделей, но нужны и роботы для сбора этих данных.

🧠 Архитектура: Мозг в облаке, спинной мозг — на устройстве 23:06

Современный стек Gemini Robotics представляет собой распределенную систему, состоящую из двух ключевых компонентов, которые работают в тандеме:

  1. Gemini Robotics ER (Embodied Reasoning): Модель в облаке, отвечающая за высокоуровневое понимание ситуации и планирование. Она обновляет планы каждые 250 миллисекунд.
  2. Gemini Robotics Actions Model (VA): Модель, дистиллирующая знания из «облачного мозга». Она частично работает на самом роботе, выдавая низкоуровневые команды управления двигателями с частотой 50 Гц.

По словам Киртханы, это не просто «наслоение» алгоритмов, а стремление к созданию более целостной системы. Локальная часть системы — «спинной мозг» — обеспечивает быстрые реакции, например, если объект начинает выскальзывать из руки робота.

📐 Бенчмарк ERQA и возможности роботов 12:33

Для оценки способностей моделей был создан бенчмарк Embodied Reasoning QA (ERQA). Он проверяет фундаментальные навыки: пространственное мышление (понимание слов «большой/маленький», «влево/вправо»), оценку состояния объектов (открыт ящик или закрыт) и логику причинно-следственных связей.

Впечатляющие примеры возможностей моделей включают:

Киртхана подчеркивает, что это не «запрограммированные» действия: модель демонстрирует высокую точность и обобщение, используя возможности базовой модели Gemini, даже без узкой донастройки (fine-tuning).

🛡️ Безопасность и «оборона в глубину» 57:10

Вопрос безопасности остается критическим. Тед и Киртхана отмечают, что роботы должны обладать встроенным «здравым смыслом», чтобы не выполнять вредоносные инструкции (например, налить кипяток в мусорное ведро).

Стратегия безопасности строится на нескольких уровнях:

Оба спикера признают: роботы пока не готовы к тому, чтобы оставаться наедине с маленькими детьми без присмотра, так как «длинный хвост» редких ошибок всё еще существует.

📈 Будущее: Данные и форма роботов 1:04:00

Главным препятствием для прогресса Тед называет нехватку качественных данных. Для перехода на следующий уровень обучения (требуются триллионы токенов) индустрии придется переходить от сбора данных вручную к использованию синтетических данных и видеогенерации.

Что касается гуманоидных роботов, Киртхана и Тед расходятся в оценках их практического применения:

💬 Цитаты

«Имитационное обучение просто работает.»

Киртхана Гопалакришнан 4:48

«Если вы считаете, что робототехника — это проблема AGI, то вам нужно работать с лучшей пограничной моделью.»

Киртхана Гопалакришнан 1:25:04
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Embodied Reasoning (ER)
Способность ИИ понимать пространственные и физические аспекты мира для управления роботом.
VLA (Vision-Language-Action)
Модели, которые принимают визуальные и текстовые данные, а затем генерируют действия робота.
Teleoperation
Удаленное управление роботом человеком-оператором для записи обучающих демонстраций.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Gemini Robotics Google DeepMind Имитационное обучение Embodied Reasoning Гуманоидные роботы