# Как Google DeepMind обучает роботов через Gemini: от уборки стола до навигации

Источник: https://www.youtube.com/watch?v=e2MBiNOwEcA
Канал: Stanford Online
Опубликовано: 02.06.2025

---

На семинаре в Стенфорде исследователь из Google DeepMind (выпускник Беркли и будущий профессор Принстона) представил результаты последних разработок в области создания «универсальных политик» для роботов. В центре внимания — переход от узкоспециализированных машин к агентам, способным понимать естественный язык, манипулировать произвольными предметами и адекватно реагировать на изменения в окружающей среде. Основной тезис выступления: текущие модели уже неплохо справляются с визуальным разнообразием, но всё ещё пасуют перед семантическими нюансами и сложными поведенческими сценариями.

## 🤖 Что такое «универсальный робот» в 2024 году?
[[JUMP:00:09]]

Понятие «генералистской политики» (generalist policy) в робототехнике стало крайне популярным, однако оно до сих пор остается размытым [01:07]. Для кого-то это робот, способный заменить друга и выполнять любые человеческие просьбы, для кого-то — машина, работающая в любой среде [01:20]. Спикер сужает это определение до конкретных манипуляционных задач.

По его мнению, по-настоящему универсальная политика должна обладать двумя ключевыми свойствами:

*   **Обобщение (Generalization):** способность выполнять большой набор навыков (поднимать, наливать, распаковывать) с множеством различных объектов в меняющихся условиях (освещение, фон, препятствия) [07:12].
*   **Управляемость (Steerability):** способность точно следовать инструкциям на естественном языке, соотнося слова с тем, что робот видит перед собой [08:18].

В качестве примера была показана демонстрация работы робота Aloha [03:32]. В режиме реального времени человек просил машину убрать рабочий стол: разложить маркеры по цветам в органайзер, убрать очки в футляр, а затем переместить всё в соответствующие корзины [03:45]. Робот успешно справлялся, даже когда человек намеренно мешал ему, перекладывая предметы прямо во время выполнения задачи [05:49].

## 📊 Таксономия STAR-Gen: как измерить прогресс
[[JUMP:10:03]]

Одной из главных проблем области спикер считает отсутствие единого стандарта оценки. Чтобы понять, насколько робот «универсален», команда исследователей из Стенфорда и DeepMind разработала таксономию STAR-Gen [15:51]. Она разделяет все возможные изменения (пертурбации) на три категории:

1.  **Визуальные:** изменения освещения, ракурса камеры, появление посторонних предметов (дистракторов) или новых фонов [12:41].
2.  **Семантические:** использование синонимов в командах, перефразирование, описание физических свойств объекта вместо его названия (например, «возьми предмет для кипячения воды» вместо «возьми чайник») [13:19].
3.  **Поведенческие:** изменение начального положения объектов или появление физических препятствий на пути манипулятора [13:32].

Исследователи протестировали современные Open-Source модели, такие как OpenVLA, MiniVLA и Pi-0, используя данные Bridge [21:11]. Результаты оказались неоднозначными:

*   **Архитектура имеет значение:** Модели на базе более мощных VLM (Vision-Language Models), таких как PaliGemma, показывают лучшие результаты во всех категориях [22:21].
*   **Визуальная устойчивость:** Современные роботы на удивление хорошо справляются с изменением освещения и новыми фонами [22:46].
*   **Провал в семантике:** Несмотря на наличие мощных языковых моделей «внутри», роботы всё ещё плохо понимают перефразированные команды или специфические описания [23:26].
*   **Слабость перед новыми ракурсами:** Даже небольшое изменение положения камеры (viewpoint) способно полностью парализовать работу политики [23:00].

## 🧭 Проблема управляемости: почему роботы нас не слушают
[[JUMP:27:01]]

Спикер утверждает, что управляемость (steerability) — это свойство, ортогональное обобщению. Робот может быть очень «умным» в плане движений, но совершенно не реагировать на уточнения в команде [27:39]. Например, если на столе лежат две ложки, обычная VLA-модель может проигнорировать уточнение «возьми оранжевую ложку» и схватить любую ближайшую [28:17].

По мнению гостя, это чисто проблема разметки данных (labeling problem) [29:55]:

*   В большинстве датасетов траектории слишком просты: если в сцене есть только одна чашка, роботу не нужно вслушиваться в команду «возьми красную чашку», чтобы понять, что делать.
*   Происходит так называемый «коллапс апостериорного распределения» (posterior collapse) — модель просто игнорирует языковой сигнал, так как он не является необходимым для успешного завершения задачи [30:35].

Чтобы исправить это, исследователи предложили два метода:

1.  **Переразметка примитивов:** Использование данных о движениях (кинематики) для автоматического добавления уточнений в команды. Например, вместо «возьми горшок» — «возьми горшок сверху» или «возьми горшок сбоку» [32:54]. Это позволило научить робота брать растения так, чтобы не задевать листья [35:14].
2.  **Контрфактуальные действия:** Для навигационных роботов (типа Roomba) команда генерировала гипотетические траектории. Даже если робот всегда ездил прямо, модель обучали на примерах «что, если бы он поехал к дивану» или «что, если бы он объехал человека слева» [38:50].

## 🚀 Проект Gemini Robotics: масштабирование до уровня Google
[[JUMP:46:30]]

Финальная часть выступления была посвящена проекту Gemini Robotics в Google DeepMind. Над созданием этой VLA-модели работала команда из более чем 100 человек [47:10]. В отличие от академических подходов, здесь модель обучалась «с нуля» на базе Gemini 2.0.

Процесс обучения включал несколько этапов:

*   **Обучение воплощенному мышлению (Embodied Reasoning):** В Gemini добавили способности к пространственному мышлению, детекции объектов в 3D и предсказанию точек захвата (grasps) [48:04].
*   **Гибридная архитектура:** Чтобы обеспечить высокую частоту управления (50 Гц), основная «тяжелая» часть модели работает в облаке, а быстрый локальный декодер генерирует конкретные действия робота [50:18].
*   **Масштаб данных:** Модель обучалась на тысячах часов демонстраций с использованием флота роботов Aloha, выполняя сотни разнообразных задач — от складывания белья до упаковки сумок [49:26].

Анализ Gemini Robotics показал, что даже на таком масштабе сохраняются определенные трудности. Хотя визуальное обобщение стало почти идеальным, модель всё ещё может «споткнуться» на опечатках в командах или на объектах совершенно новой формы [54:24]. Спикер подчеркивает, что путь к по-настоящему универсальному «роботу-другу» ещё долог, но детальная оценка через таксономии типа STAR-Gen позволяет четко видеть, какие именно узлы системы требуют доработки [55:42].