Как Google DeepMind обучает роботов через Gemini: от уборки стола до навигации

Stanford Online 2,7 тыс. 57 мин 4 мин 02.06.2025
Главное

На семинаре в Стенфорде исследователь из Google DeepMind (выпускник Беркли и будущий профессор Принстона) представил результаты последних разработок в области создания «универсальных политик» для роботов. В центре внимания — переход от узкоспециализированных машин к агентам, способным понимать естественный язык, манипулировать произвольными предметами и адекватно реагировать на изменения в окружающей среде. Основной тезис выступления: текущие модели уже неплохо справляются с визуальным разнообразием, но всё ещё пасуют перед семантическими нюансами и сложными поведенческими сценариями.

🤖 Что такое «универсальный робот» в 2024 году? 0:09

Понятие «генералистской политики» (generalist policy) в робототехнике стало крайне популярным, однако оно до сих пор остается размытым . Для кого-то это робот, способный заменить друга и выполнять любые человеческие просьбы, для кого-то — машина, работающая в любой среде . Спикер сужает это определение до конкретных манипуляционных задач.

По его мнению, по-настоящему универсальная политика должна обладать двумя ключевыми свойствами:

В качестве примера была показана демонстрация работы робота Aloha . В режиме реального времени человек просил машину убрать рабочий стол: разложить маркеры по цветам в органайзер, убрать очки в футляр, а затем переместить всё в соответствующие корзины . Робот успешно справлялся, даже когда человек намеренно мешал ему, перекладывая предметы прямо во время выполнения задачи .

📊 Таксономия STAR-Gen: как измерить прогресс 10:03

Одной из главных проблем области спикер считает отсутствие единого стандарта оценки. Чтобы понять, насколько робот «универсален», команда исследователей из Стенфорда и DeepMind разработала таксономию STAR-Gen . Она разделяет все возможные изменения (пертурбации) на три категории:

  1. Визуальные: изменения освещения, ракурса камеры, появление посторонних предметов (дистракторов) или новых фонов .
  2. Семантические: использование синонимов в командах, перефразирование, описание физических свойств объекта вместо его названия (например, «возьми предмет для кипячения воды» вместо «возьми чайник») .
  3. Поведенческие: изменение начального положения объектов или появление физических препятствий на пути манипулятора .

Исследователи протестировали современные Open-Source модели, такие как OpenVLA, MiniVLA и Pi-0, используя данные Bridge . Результаты оказались неоднозначными:

🧭 Проблема управляемости: почему роботы нас не слушают 27:01

Спикер утверждает, что управляемость (steerability) — это свойство, ортогональное обобщению. Робот может быть очень «умным» в плане движений, но совершенно не реагировать на уточнения в команде . Например, если на столе лежат две ложки, обычная VLA-модель может проигнорировать уточнение «возьми оранжевую ложку» и схватить любую ближайшую .

По мнению гостя, это чисто проблема разметки данных (labeling problem) :

Чтобы исправить это, исследователи предложили два метода:

  1. Переразметка примитивов: Использование данных о движениях (кинематики) для автоматического добавления уточнений в команды. Например, вместо «возьми горшок» — «возьми горшок сверху» или «возьми горшок сбоку» . Это позволило научить робота брать растения так, чтобы не задевать листья .
  2. Контрфактуальные действия: Для навигационных роботов (типа Roomba) команда генерировала гипотетические траектории. Даже если робот всегда ездил прямо, модель обучали на примерах «что, если бы он поехал к дивану» или «что, если бы он объехал человека слева» .

🚀 Проект Gemini Robotics: масштабирование до уровня Google 46:30

Финальная часть выступления была посвящена проекту Gemini Robotics в Google DeepMind. Над созданием этой VLA-модели работала команда из более чем 100 человек . В отличие от академических подходов, здесь модель обучалась «с нуля» на базе Gemini 2.0.

Процесс обучения включал несколько этапов:

Анализ Gemini Robotics показал, что даже на таком масштабе сохраняются определенные трудности. Хотя визуальное обобщение стало почти идеальным, модель всё ещё может «споткнуться» на опечатках в командах или на объектах совершенно новой формы . Спикер подчеркивает, что путь к по-настоящему универсальному «роботу-другу» ещё долог, но детальная оценка через таксономии типа STAR-Gen позволяет четко видеть, какие именно узлы системы требуют доработки .

💬 Цитаты

«Политика «умею всё» (do everything policy) появится еще через несколько лет, если вы спросите меня.»

Абишек Гупта 07:12

«Модель полностью игнорирует сигнал кондиционирования, поступающий через язык, потому что ей не нужен этот язык для изучения хорошего поведения.»

Абишек Гупта 30:35
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VLA (Vision-Language-Action)
Мультимодальные модели, которые принимают на вход изображения и текст, а на выходе генерируют конкретные действия для робота.
Posterior Collapse (в контексте робототехники)
Эффект, при котором нейросеть перестает обращать внимание на текстовую команду, если задача может быть решена только на основе визуальных данных.
Counterfactual actions
Гипотетические действия, которые робот не совершал в реальности, но которые используются для расширения обучающей выборки.
📊 Цифры
🗓 Хронология
  1. 2023 Абишек Гупта завершил PhD в Беркли и присоединился к DeepMind.
  2. Май 2024 Выход статьи о таксономии STAR-Gen и результатах оценки VLA-моделей.
⚖️ Другая сторона
Искусственный интеллект Google DeepMind Gemini Robotics VLA STAR-Gen Aloha