Роботизация и ИИ: Как Google DeepMind приближает эру Gemini Robotics 0:00
Робототехника сегодня находится на пороге качественного скачка, аналогичного переходу от моделей GPT-3 к GPT-3.5 в мире языковых технологий. Исследователи Google DeepMind Киртхана (Keerthana) и Тед (Ted) представили технический отчет Gemini Robotics, описывающий новый подход к внедрению ИИ в физический мир, где фундаментальные возможности базовых моделей становятся основой для управления роботами. Участники интервью обсуждают, почему объединение облачного «мозга» с локальными «спинными» системами управления является ключом к созданию по-настоящему полезных и автономных роботов.
🤖 Эволюция интеллекта роботов 4:08
Спустя год после предыдущей беседы в подкасте The Cognitive Revolution, индустрия робототехники существенно продвинулась вперед. По мнению Киртханы, если два года назад робототехника находилась на стадии «GPT-2» (малополезные эксперименты), то сегодня она достигла уровня «GPT-3 — 3.5».
Основные изменения за год:
- Имитационное обучение: Стало общепринятым стандартом, доказавшим свою эффективность.
- Движение: Алгоритмы ходьбы для гуманоидов (locomotion) стали работать стабильно для многих команд.
- Масштабирование: Сообщество вышло за рамки простых лабораторных столов, перейдя к сложным коммерческим задачам.
- Интерес инвесторов: Венчурные фонды активно вкладываются в стартапы, что ускоряет конкуренцию и коммерциализацию.
Тед отмечает, что, в отличие от ChatGPT, робототехнике не хватает «дешевого потребительского оборудования», которое позволило бы каждому испытать «роботизированный мозг». Это создает проблему «курицы и яйца»: нужны данные для обучения моделей, но нужны и роботы для сбора этих данных.
🧠 Архитектура: Мозг в облаке, спинной мозг — на устройстве 23:06
Современный стек Gemini Robotics представляет собой распределенную систему, состоящую из двух ключевых компонентов, которые работают в тандеме:
- Gemini Robotics ER (Embodied Reasoning): Модель в облаке, отвечающая за высокоуровневое понимание ситуации и планирование. Она обновляет планы каждые 250 миллисекунд.
- Gemini Robotics Actions Model (VA): Модель, дистиллирующая знания из «облачного мозга». Она частично работает на самом роботе, выдавая низкоуровневые команды управления двигателями с частотой 50 Гц.
По словам Киртханы, это не просто «наслоение» алгоритмов, а стремление к созданию более целостной системы. Локальная часть системы — «спинной мозг» — обеспечивает быстрые реакции, например, если объект начинает выскальзывать из руки робота.
📐 Бенчмарк ERQA и возможности роботов 12:33
Для оценки способностей моделей был создан бенчмарк Embodied Reasoning QA (ERQA). Он проверяет фундаментальные навыки: пространственное мышление (понимание слов «большой/маленький», «влево/вправо»), оценку состояния объектов (открыт ящик или закрыт) и логику причинно-следственных связей.
Впечатляющие примеры возможностей моделей включают:
- Использование кухонных щипцов для манипуляций.
- Складывание коробок из оригами.
- Открытие зип-пакетов и сортировка предметов.
Киртхана подчеркивает, что это не «запрограммированные» действия: модель демонстрирует высокую точность и обобщение, используя возможности базовой модели Gemini, даже без узкой донастройки (fine-tuning).
🛡️ Безопасность и «оборона в глубину» 57:10
Вопрос безопасности остается критическим. Тед и Киртхана отмечают, что роботы должны обладать встроенным «здравым смыслом», чтобы не выполнять вредоносные инструкции (например, налить кипяток в мусорное ведро).
Стратегия безопасности строится на нескольких уровнях:
- Семантическая безопасность: Отказ от выполнения вредоносных действий на уровне модели.
- Операционная безопасность: Использование кнопок экстренной остановки (estops) и физических ограничений силы.
- Профилактика: Обучение на датасете Asimov, содержащем сценарии, помогающие роботу избегать опасного поведения.
Оба спикера признают: роботы пока не готовы к тому, чтобы оставаться наедине с маленькими детьми без присмотра, так как «длинный хвост» редких ошибок всё еще существует.
📈 Будущее: Данные и форма роботов 1:04:00
Главным препятствием для прогресса Тед называет нехватку качественных данных. Для перехода на следующий уровень обучения (требуются триллионы токенов) индустрии придется переходить от сбора данных вручную к использованию синтетических данных и видеогенерации.
Что касается гуманоидных роботов, Киртхана и Тед расходятся в оценках их практического применения:
- Киртхана считает, что изучение гуманоидов — это необходимый путь развития, открывающий новые горизонты (манипуляция пальцами, использование всего тела для баланса).
- Тед полагает, что гуманоиды — это сложнейшая инженерная задача, и хотя она вдохновляет исследователей, для массового внедрения в быт могут подойти более простые форм-факторы.