Как обучить робота-дворцкого? Новые подходы Стэнфорда к обобщению задач

На научном семинаре в Стэнфордском университете молодой исследователь представил перспективную концепцию обобщения действий роботов на основе репрезентации задач с помощью базовых моделей (Foundation Models). Главный вызов современной робототехники заключается в том, что даже самые продвинутые системы искусственного интеллекта пока способны адаптироваться лишь к новым условиям среды, но не к принципиально новым навыкам. В докладе детально разбирается эволюция подходов к управлению роботами — от простых текстовых инструкций до динамических пространственно-временных карт.

🤖 Мечта о роботе-дворецком и тупик масштабирования данных 0:10

Идея создания антропоморфного или бытового робота, способного ориентироваться в открытом мире, уже около 20 лет остается одной из главных целей индустрии. В качестве примера спикер демонстрирует архивное видео Стэнфордской программы персональной робототехники двадцатилетней давности, где робот убирает комнату, раскладывает вещи и собирает игрушки. Несмотря на внешнюю автономность, та система полностью управлялась человеком в режиме телеоперации.

Идеальный дизайн современного робота-помощника, по мнению докладчика, выглядит очевидным: система должна принимать высокоуровневые инструкции и сенсорные данные, а на выходе выдавать точные физические действия. При этом критически важно, чтобы робот демонстрировал способность к обобщению (generalization) в двух направлениях:

По отношению к окружению: адаптация к новым конфигурациям пространства, незнакомым объектам и моделям роботов.
По отношению к задачам: гибкое переключение между различными целями, траекториями движений и моторными навыками.

В последние годы профильная наука достигла огромного прогресса. Широкое распространение получили диффузионные политики (diffusion policies), эффективно моделирующие мультимодальные распределения действий, а также мультимодальные модели класса «зрение-язык-действие» (VLA, Vision-Language-Action). Ярким примером кульминации этих усилий спикер называет недавний релиз модели Pi0.5 от компании Physical Intelligence. Эта единая нейросеть продемонстрировала удивительную способность обобщения в совершенно новых, ранее не встречавшихся домашних интерьерах.

Тем не менее, как отмечают сами авторы Pi0.5 в своей научной публикации, их текущая цель состояла в адаптации к новым условиям, а не в освоении новых навыков. По мнению докладчика, обобщение на уровне разнородных задач до сих пор остается нерешенной фундаментальной проблемой. Можно надеяться, что простое масштабирование объемов данных (data scaling) со временем исправит ситуацию, однако спикер предлагает взглянуть на проблему с научной и практической точек зрения. Чтобы эффективно собирать данные и обучать роботов, необходимо ответить на фундаментальный вопрос: что представляет собой задача и как именно ее репрезентировать в архитектуре ИИ?

🧩 Сложность бытовых манипуляций: почему робот — это не беспилотник 2:33

Для некоторых изолированных доменов репрезентация задачи кажется тривиальной. Например, для робота-пылесоса Roomba задача сводится к максимальному покрытию площади пола, а для беспилотного автомобиля — к перемещению из точки А в точку Б. Но как только речь заходит о полноценном роботе-дворецком, выполняющем сложные манипуляции с предметами в жилом доме, базовая логика рушится.

Если разбить комплексную уборку дома на подзадачи, возникнет длинный список переплетенных процессов:

Размещение контейнеров для сортировки.
Раскладывание подушек на диване.
Сортировка и расстановка книг.
Упаковка разбросанных игрушек.

Даже внутри одной изолированной подзадачи скрывается колоссальное количество нюансов. Докладчик приводит пример с подушками: если на диване лежат четыре подушки, робот может аккуратно разложить их по две с каждой стороны. Но как он должен поступить, если подушек окажется пять или шесть, или если среди них появится плед?

Аналогичные трудности возникают при сортировке книг. Робот на видео выравнивает их края и складывает в стопку на столе лишь потому, что поблизости нет книжной полки. Будь там полка, стратегия бы полностью изменилась: книги пришлось бы ставить вертикально одну за другой.

Кроме того, все эти подзадачи жестко взаимосвязаны. Контейнер, который робот ставит на стол в самом начале работы, потребуется ему только на финальном этапе для сбора конструктора Lego. Такие процессы обладают глубокими геометрическими и кинематическими зависимостями. Робот должен заранее рассчитать положение контейнера так, чтобы в будущем его манипулятор физически мог дотянуться до кубиков и аккуратно опустить их внутрь.

🗣️ От текста к пространству: эволюция языковых моделей в планировании 5:01

В качестве первого шага исследователи обратились к естественному языку как к способу репрезентации задач. Летом 2021 года, за год до релиза ChatGPT, команда Стэнфордского университета одной из первых в мире задалась вопросом: можно ли использовать скрытые знания больших языковых моделей (LLM) для высокоуровневого планирования действий робота?

Эксперименты проводились в симуляционной домашней среде под названием Virtual Home. Ученые проверяли, способна ли предобученная модель (в данном случае GPT-3) без дополнительного обучения (zero-shot) управлять агентом для выполнения бытовых поручений. Нейросеть показала многообещающие результаты. Например, получив запрос на разделение задачи «побриться» на этапы, она выдавала вполне логичную последовательность действий.

Однако не обходилось без курьезов, которые спикер называет своими любимыми примерами из практики. На текстовый запрос «отвези детей в школу» модель GPT-3 сгенерировала следующий план:

Дойти до машины.
Открыть дверь машины.
Достать детей из машины.
Посадить детей в школьный автобус.
Закрыть дверь школьного автобуса.
Сесть в свою машину и поехать на работу.

Такой план оказался абсолютно невалидным для симулятора. Позже специалисты из Google развили эту идею в проекте SayCan, предложив использовать функцию ценности (value function) для каждого микронавыка. Это позволило объединить семантические знания LLM с физическими возможностями робота в реальной среде. В дальнейшем совместными усилиями были созданы такие известные архитектуры, как PaLM-E и Grounded Decoding.

Несмотря на популярность текстового подхода, докладчик указывает на его главное критическое ограничение: задачи робототехники по своей природе пространственные, а не текстовые. Если человеку нужно научиться складывать футболку, ему достаточно посмотреть минутное видео. Если же попытаться описать этот процесс сухим текстом, обучение превратится в мучительный и долгий процесс. Роботам тоже необходимо передавать пространственную информацию напрямую.

🗺️ Box-Poster: заземление задач в 3D-пространстве 8:02

Для решения проблемы пространственного восприятия команда спикера разработала алгоритм под названием Box-Poster. Его ключевая идея заключается в репрезентации задач через трехмерные карты ценности (3D Value Maps).

Система работает следующим образом: робот получает естественную инструкцию (например, «открой верхний ящик комода»), после чего базовая модель генерирует программный код на Python, который итеративно выстраивает 3D-карту ценности пространства. Затем классический алгоритм планирования движений (motion planning) преобразует эту карту в физические траектории манипулятора.

Докладчик подробно описывает этот процесс на примере с ящиком комода:

Языковая модель создает в памяти трехмерный массив (воксельное пространство) размером 100x100x100 ячеек, соответствующий рабочей зоне робота.
Код вызывает мультимодальную модель (VLM) для обнаружения ручек мебели в поле зрения камер.
Поскольку в инструкции указан именно верхний ящик, сгенерированный ИИ код сортирует найденные ручки по высоте, находит нужную и присваивает этой точке пространства высокое положительное значение ценности (награду).
Полученные значения программно сглаживаются и распространяются на соседние воксели.

Точно так же система обрабатывает ограничения среды. Если оператор добавляет команду «осторожно, не задень вазу», ИИ находит вазу через систему компьютерного зрения и заполняет соответствующую область трехмерной карты отрицательными значениями (штрафами). В итоге формируется целостная 3D-матрица, по которой робот безошибочно наводит захват на цель и выдвигает ящик. Метод работает на частоте около 10 Гц в закрытом цикле, поддерживает управление с 6 степенями свободы (6-DoF) как для трансляции, так и для ротации захвата, и не требует предварительных демонстраций под конкретную задачу.

⏳ Укрощение времени: метод Recap и пространственно-временные связи 9:47

Пространственного заземления недостаточно, если задача растянута во времени и содержит строгие внутренние зависимости. Примером служит процесс наливания чая: сначала робот должен схватить чайник за ручку, затем удерживать его строго вертикально, поднести носиком к чашке и только после этого наклонить для наливания. Если на каком-то этапе произойдет сбой, робот не должен бездумно переходить к фазе наклона — ему необходимо вернуться назад и исправить ошибку.

Для объединения пространственной и временной композиции команда разработала метод Recap. В его основе лежит представление задачи в виде последовательности реляционных ограничений ключевых точек (Relational Keypoint Constraints). Каждое такое ограничение — это функция на Python, которая сопоставляет набор ключевых точек физических объектов с числовой стоимостью ошибки (cost).

Спикер объясняет работу алгоритма Recap на примере приготовления чая:

Мультимодальная модель размечает ключевые точки на объектах в кадре и передает изображение с наложенной графикой в нейросеть GPT-4o.
Нейросеть декомпозирует задачу на стадии и для каждой из них генерирует два типа ограничений: sub-goal constraints (целевые параметры, которые должны быть достигнуты к концу этапа) и path constraints (условия, которые робот обязан непрерывно соблюдать в процессе выполнения этапа).
На первом этапе sub-goal ограничением становится минимизация расстояния (L2-нормы) между ключевой точкой схвата робота и точкой на ручке чайника.
На втором этапе активируется path-ограничение: чайник должен оставаться строго в вертикальном положении, пока носиком не поравняется с краем чашки.
На этапе наливания алгоритм рассчитывает точный угол наклона, отслеживая взаимное положение трех ключевых точек: ручки (синий маркер), носика (красный маркер) и горлышка чашки (зеленый маркер).

Уникальное преимущество Recap заключается в возможности динамического отката назад в режиме реального времени. Докладчик демонстрирует видеозапись, где он намеренно мешает роботу и двигает чашку в сторону прямо во время наливания жидкости. Робот мгновенно фиксирует нарушение path-ограничения, прекращает лить воду, выравнивает чайник, заново наводится на перемещенную чашку и продолжает выполнение задачи.

Система успешно справилась со множеством разнородных сценариев без специфических данных: от совместного с человеком складывания одеяла до сложной укладки книг в узкие зазоры на полке. Система работает автономно на базе легких визуальных фичей DINOv2 и требует для вычислений всего одну стандартную станцию с двумя графическими процессорами (2-GPU). По запросу ИИ смог самостоятельно сгенерировать стратегии для складывания различных типов одежды без предварительного обучения.

🎯 Карта возможностей: репрезентация через аффордансы 15:53

Еще один передовой проект, представленный спикером, предлагает кодировать задачи на попиксельном уровне через концепцию аффордансов (affordances) — зон потенциального физического взаимодействия. Когда человек заходит в комнату, он мгновенно считывает функциональные зоны предметов: сиденье стула сигнализирует о возможности сесть, амбушюры наушников — о возможности их надеть, а крышка бутылки — о том, что ее можно открутить.

Чтобы научить этому робота в реальных условиях (in the wild), исследователи создали полностью автономный конвейер сбора данных без участия человека:

Берутся произвольные трехмерные CAD-модели объектов и рендерятся с десятков разных ракурсов в симуляции.
Для каждого кадра рассчитываются визуальные признаки DINOv2, которые затем проецируются обратно в единое 3D-поле признаков на облаке точек объекта.
Проводится автоматическая кластеризация для выделения семантических зон.
Языковая модель VLM «устраивает мозговой штурм», придумывая потенциальные задачи для объекта и связывая их с конкретными кластерами (например, для чашки зона ободка связывается с действием «пить», а боковая поверхность — с действием «взять в руку»).

На этой базе была обучена универсальная модель аффордансов, охватывающая более 10 000 пар объектов и текстовых запросов. Нейросеть работает со скоростью около 200 Гц на современном GPU и способна на лету определять зоны взаимодействия для совершенно незнакомых предметов: находить воротник на смятой одежде, понимать, за какую часть хватать нестандартную вешалку или как открыть незнакомый выдвижной ящик. Политика обучения подражанием (imitation learning), натренированная на таких репрезентациях, без труда справляется даже с новыми, не встречавшимися ранее вербальными командами — например, по инструкции «полей растение» робот корректно берет объект новой формы и совершает нужное движение.

📚 Обучение по демонстрациям и будущее робототехники 20:02

Последний вектор исследований, затронутый в презентации, касается сценариев, когда у робота есть доступ к ручным демонстрациям (например, траекториям, записанным человеком через телеуправление). С помощью базовых моделей ИИ эти траектории автоматически сегментируются как во времени, так и в пространстве. Время разбивается на микроэтапы (взять книгу -> отодвинуть другую книгу -> поставить на полку), а в пространстве маскируются все фоновые объекты, не имеющие отношения к делу. В результате робот перенимает навыки гораздо быстрее и стабильно выполняет задачи на более длинных временных горизонтах, чем те, что присутствовали в обучающей выборке.

Подводя итог, спикер отмечает, что индустрия тратит колоссальные ресурсы на масштабирование сбора физических данных, но полноценные домашние роботы-андроиды все еще остаются далекой перспективой. В отличие от классического подхода, где интернет-данные пытаются напрямую «сжать» в управляющую политику, исследователь предлагает разделять семантический и физический уровни интеллекта.

Современные большие языковые и визуальные модели уже сформировали мощный символьный интеллект, понимающий человеческие намерения и нюансы. В терминах обучения с подкреплением (MDP) эти модели выступают в роли идеальной функции награды. С другой стороны, роботу необходима пространственная модель мира, работающая в 3D-координатах, а не в тексте. Как считает докладчик, именно на стыке готовых семантических знаний базовых моделей и чистых пространственных 3D-репрезентаций физического мира в будущем родится истинно автономный, универсальный робот-помощник.

❓ Вопросы и ответы: планирование против предсказания и проблемы сегментации 23:56

После завершения доклада слушатели задали автору несколько уточняющих вопросов.

Вопрос об интерфейсе между LLM и низкоуровневым планированием: Один из участников поинтересовался, насколько эффективно использовать связку из высокоуровневой нейросети на верхнем уровне и классического алгоритма motion planning на нижнем, и не становится ли планирование узким горлышком всей системы?

Ответ: Спикер пояснил, что глобально существует два пути генерации физических действий робота — предсказание (prediction) на основе собранного датасета и планирование/оптимизация (planning/optimization) на основе модели среды и целевой функции. В своих работах команда использовала упрощенные допущения (например, предположение о жесткой фиксации объекта в схвате робота). Однако в перспективе, если индустрия создаст мощные и быстрые «модели мира» (world models), внутри них можно будет запускать алгоритмы обучения с подкреплением методом проб и ошибок прямо на лету. Онлайн-планирование из чистой пустоты не слишком эффективно вычислительно, но это отличная и простая отправная точка для исследований.

Вопрос о сегментации объектов в проекте с аффордансами: Слушатели спросили, существует ли обратная связь (feedback loop) для определения оптимального количества сегментов, на которые делится объект перед тем, как VLM начнет анализировать его функции?

Ответ: Докладчик признал, что сейчас обратной связи нет: система намеренно избыточно дробит объект на мелкие части (over-segmentation) с помощью алгоритма кластеризации Mean Shift, а нейросеть уже сама выбирает нужные зоны. Идея внедрить feedback-петлю, чтобы VLM могла запрашивать более детальную или, наоборот, крупную сегментацию, выглядит очень перспективно.

Спикер также поделился интересным наблюдением: за время ведения проекта точность работы используемых коммерческих ИИ-моделей радикально выросла сама по себе. Ошибки распознавания и интерпретации со стороны VLM резко сократились просто потому, что компании-разработчики выпускали обновления (например, новые версии GPT-4o), которые с каждым месяцем справлялись с анализом изображений всё лучше и лучше.