Как Google DeepMind обучает роботов через Gemini: от уборки стола до навигации

На семинаре в Стенфорде исследователь из Google DeepMind (выпускник Беркли и будущий профессор Принстона) представил результаты последних разработок в области создания «универсальных политик» для роботов. В центре внимания — переход от узкоспециализированных машин к агентам, способным понимать естественный язык, манипулировать произвольными предметами и адекватно реагировать на изменения в окружающей среде. Основной тезис выступления: текущие модели уже неплохо справляются с визуальным разнообразием, но всё ещё пасуют перед семантическими нюансами и сложными поведенческими сценариями.

🤖 Что такое «универсальный робот» в 2024 году? 0:09

Понятие «генералистской политики» (generalist policy) в робототехнике стало крайне популярным, однако оно до сих пор остается размытым . Для кого-то это робот, способный заменить друга и выполнять любые человеческие просьбы, для кого-то — машина, работающая в любой среде . Спикер сужает это определение до конкретных манипуляционных задач.

По его мнению, по-настоящему универсальная политика должна обладать двумя ключевыми свойствами:

Обобщение (Generalization): способность выполнять большой набор навыков (поднимать, наливать, распаковывать) с множеством различных объектов в меняющихся условиях (освещение, фон, препятствия) .
Управляемость (Steerability): способность точно следовать инструкциям на естественном языке, соотнося слова с тем, что робот видит перед собой .

В качестве примера была показана демонстрация работы робота Aloha . В режиме реального времени человек просил машину убрать рабочий стол: разложить маркеры по цветам в органайзер, убрать очки в футляр, а затем переместить всё в соответствующие корзины . Робот успешно справлялся, даже когда человек намеренно мешал ему, перекладывая предметы прямо во время выполнения задачи .

📊 Таксономия STAR-Gen: как измерить прогресс 10:03

Одной из главных проблем области спикер считает отсутствие единого стандарта оценки. Чтобы понять, насколько робот «универсален», команда исследователей из Стенфорда и DeepMind разработала таксономию STAR-Gen . Она разделяет все возможные изменения (пертурбации) на три категории:

Визуальные: изменения освещения, ракурса камеры, появление посторонних предметов (дистракторов) или новых фонов .
Семантические: использование синонимов в командах, перефразирование, описание физических свойств объекта вместо его названия (например, «возьми предмет для кипячения воды» вместо «возьми чайник») .
Поведенческие: изменение начального положения объектов или появление физических препятствий на пути манипулятора .

Исследователи протестировали современные Open-Source модели, такие как OpenVLA, MiniVLA и Pi-0, используя данные Bridge . Результаты оказались неоднозначными:

Архитектура имеет значение: Модели на базе более мощных VLM (Vision-Language Models), таких как PaliGemma, показывают лучшие результаты во всех категориях .
Визуальная устойчивость: Современные роботы на удивление хорошо справляются с изменением освещения и новыми фонами .
Провал в семантике: Несмотря на наличие мощных языковых моделей «внутри», роботы всё ещё плохо понимают перефразированные команды или специфические описания .
Слабость перед новыми ракурсами: Даже небольшое изменение положения камеры (viewpoint) способно полностью парализовать работу политики .

🧭 Проблема управляемости: почему роботы нас не слушают 27:01

Спикер утверждает, что управляемость (steerability) — это свойство, ортогональное обобщению. Робот может быть очень «умным» в плане движений, но совершенно не реагировать на уточнения в команде . Например, если на столе лежат две ложки, обычная VLA-модель может проигнорировать уточнение «возьми оранжевую ложку» и схватить любую ближайшую .

По мнению гостя, это чисто проблема разметки данных (labeling problem) :

В большинстве датасетов траектории слишком просты: если в сцене есть только одна чашка, роботу не нужно вслушиваться в команду «возьми красную чашку», чтобы понять, что делать.
Происходит так называемый «коллапс апостериорного распределения» (posterior collapse) — модель просто игнорирует языковой сигнал, так как он не является необходимым для успешного завершения задачи .

Чтобы исправить это, исследователи предложили два метода:

Переразметка примитивов: Использование данных о движениях (кинематики) для автоматического добавления уточнений в команды. Например, вместо «возьми горшок» — «возьми горшок сверху» или «возьми горшок сбоку» . Это позволило научить робота брать растения так, чтобы не задевать листья .
Контрфактуальные действия: Для навигационных роботов (типа Roomba) команда генерировала гипотетические траектории. Даже если робот всегда ездил прямо, модель обучали на примерах «что, если бы он поехал к дивану» или «что, если бы он объехал человека слева» .

🚀 Проект Gemini Robotics: масштабирование до уровня Google 46:30

Финальная часть выступления была посвящена проекту Gemini Robotics в Google DeepMind. Над созданием этой VLA-модели работала команда из более чем 100 человек . В отличие от академических подходов, здесь модель обучалась «с нуля» на базе Gemini 2.0.

Процесс обучения включал несколько этапов:

Обучение воплощенному мышлению (Embodied Reasoning): В Gemini добавили способности к пространственному мышлению, детекции объектов в 3D и предсказанию точек захвата (grasps) .
Гибридная архитектура: Чтобы обеспечить высокую частоту управления (50 Гц), основная «тяжелая» часть модели работает в облаке, а быстрый локальный декодер генерирует конкретные действия робота .
Масштаб данных: Модель обучалась на тысячах часов демонстраций с использованием флота роботов Aloha, выполняя сотни разнообразных задач — от складывания белья до упаковки сумок .

Анализ Gemini Robotics показал, что даже на таком масштабе сохраняются определенные трудности. Хотя визуальное обобщение стало почти идеальным, модель всё ещё может «споткнуться» на опечатках в командах или на объектах совершенно новой формы . Спикер подчеркивает, что путь к по-настоящему универсальному «роботу-другу» ещё долог, но детальная оценка через таксономии типа STAR-Gen позволяет четко видеть, какие именно узлы системы требуют доработки .