# Gemini Robotics: как ИИ учится управлять физическим миром?

Источник: https://www.youtube.com/watch?v=8burcVPvRjU
Канал: The Cognitive Revolution
Опубликовано: 17.05.2025

---

## Роботизация и ИИ: Как Google DeepMind приближает эру Gemini Robotics
[[JUMP:0:00]]

Робототехника сегодня находится на пороге качественного скачка, аналогичного переходу от моделей GPT-3 к GPT-3.5 в мире языковых технологий. Исследователи Google DeepMind Киртхана (Keerthana) и Тед (Ted) представили технический отчет Gemini Robotics, описывающий новый подход к внедрению ИИ в физический мир, где фундаментальные возможности базовых моделей становятся основой для управления роботами. Участники интервью обсуждают, почему объединение облачного «мозга» с локальными «спинными» системами управления является ключом к созданию по-настоящему полезных и автономных роботов.

## 🤖 Эволюция интеллекта роботов
[[JUMP:4:08]]

Спустя год после предыдущей беседы в подкасте *The Cognitive Revolution*, индустрия робототехники существенно продвинулась вперед. По мнению Киртханы, если два года назад робототехника находилась на стадии «GPT-2» (малополезные эксперименты), то сегодня она достигла уровня «GPT-3 — 3.5».

Основные изменения за год:

*   **Имитационное обучение:** Стало общепринятым стандартом, доказавшим свою эффективность.
*   **Движение:** Алгоритмы ходьбы для гуманоидов (locomotion) стали работать стабильно для многих команд.
*   **Масштабирование:** Сообщество вышло за рамки простых лабораторных столов, перейдя к сложным коммерческим задачам.
*   **Интерес инвесторов:** Венчурные фонды активно вкладываются в стартапы, что ускоряет конкуренцию и коммерциализацию.

Тед отмечает, что, в отличие от ChatGPT, робототехнике не хватает «дешевого потребительского оборудования», которое позволило бы каждому испытать «роботизированный мозг». Это создает проблему «курицы и яйца»: нужны данные для обучения моделей, но нужны и роботы для сбора этих данных.

## 🧠 Архитектура: Мозг в облаке, спинной мозг — на устройстве
[[JUMP:23:06]]

Современный стек Gemini Robotics представляет собой распределенную систему, состоящую из двух ключевых компонентов, которые работают в тандеме:

1.  **Gemini Robotics ER (Embodied Reasoning):** Модель в облаке, отвечающая за высокоуровневое понимание ситуации и планирование. Она обновляет планы каждые 250 миллисекунд.
2.  **Gemini Robotics Actions Model (VA):** Модель, дистиллирующая знания из «облачного мозга». Она частично работает на самом роботе, выдавая низкоуровневые команды управления двигателями с частотой 50 Гц.

По словам Киртханы, это не просто «наслоение» алгоритмов, а стремление к созданию более целостной системы. Локальная часть системы — «спинной мозг» — обеспечивает быстрые реакции, например, если объект начинает выскальзывать из руки робота.

## 📐 Бенчмарк ERQA и возможности роботов
[[JUMP:12:33]]

Для оценки способностей моделей был создан бенчмарк *Embodied Reasoning QA (ERQA)*. Он проверяет фундаментальные навыки: пространственное мышление (понимание слов «большой/маленький», «влево/вправо»), оценку состояния объектов (открыт ящик или закрыт) и логику причинно-следственных связей.

Впечатляющие примеры возможностей моделей включают:

*   Использование кухонных щипцов для манипуляций.
*   Складывание коробок из оригами.
*   Открытие зип-пакетов и сортировка предметов.

Киртхана подчеркивает, что это не «запрограммированные» действия: модель демонстрирует высокую точность и обобщение, используя возможности базовой модели Gemini, даже без узкой донастройки (fine-tuning).

## 🛡️ Безопасность и «оборона в глубину»
[[JUMP:57:10]]

Вопрос безопасности остается критическим. Тед и Киртхана отмечают, что роботы должны обладать встроенным «здравым смыслом», чтобы не выполнять вредоносные инструкции (например, налить кипяток в мусорное ведро).

Стратегия безопасности строится на нескольких уровнях:

*   **Семантическая безопасность:** Отказ от выполнения вредоносных действий на уровне модели.
*   **Операционная безопасность:** Использование кнопок экстренной остановки (estops) и физических ограничений силы.
*   **Профилактика:** Обучение на датасете *Asimov*, содержащем сценарии, помогающие роботу избегать опасного поведения.

Оба спикера признают: роботы пока не готовы к тому, чтобы оставаться наедине с маленькими детьми без присмотра, так как «длинный хвост» редких ошибок всё еще существует.

## 📈 Будущее: Данные и форма роботов
[[JUMP:1:04:00]]

Главным препятствием для прогресса Тед называет нехватку качественных данных. Для перехода на следующий уровень обучения (требуются триллионы токенов) индустрии придется переходить от сбора данных вручную к использованию синтетических данных и видеогенерации.

Что касается гуманоидных роботов, Киртхана и Тед расходятся в оценках их практического применения:

*   Киртхана считает, что изучение гуманоидов — это необходимый путь развития, открывающий новые горизонты (манипуляция пальцами, использование всего тела для баланса).
*   Тед полагает, что гуманоиды — это сложнейшая инженерная задача, и хотя она вдохновляет исследователей, для массового внедрения в быт могут подойти более простые форм-факторы.