Как Google SayCan объединяет языковые модели и робототехнику

Современные большие языковые модели (LLM) обладают огромным запасом знаний о мире, однако их применение в реальной робототехнике долгое время было ограничено отсутствием физического контекста. В интервью с популяризатором науки Янником Кильхером (Yannic Kilcher) разработчики из Google — Фей Ся, Брайан Ихтер и Кароль Хаусман — представили проект SayCan, призванный решить эту проблему. Проект предлагает элегантный механизм «приземления» (grounding) абстрактных текстовых инструкций на реальные физические возможности робота в конкретной среде.

🤖 Новая парадигма: Зачем роботу языковая модель? 0:00

Традиционные подходы к управлению роботами часто пытаются напрямую транслировать команды из языковой модели в исполнительные механизмы, что приводит к критическим ошибкам. Робот может составить идеальный теоретический план действий, который совершенно невыполним в текущей физической реальности. Разработчики SayCan решили разделить (факторизовать) общую задачу на две независимые составляющие:

Лингвистическая модель (Say): Отвечает за семантический анализ высокоуровневой абстрактной команды пользователя и разбиение её на логические шаги.
Функции доступности или аффордансы (Can): Отвечают за оценку физической возможности выполнения конкретного микродействия в текущей геометрии пространства.

Такое разделение позволяет использовать всю мощь предобученных LLM без необходимости их сложного дообучения под конкретные манипуляторы. По мнению Брайана Ихтера, языковые модели «из коробки» обладают глубоким пониманием последовательностей и взаимосвязей между объектами, что делает их идеальными планировщиками.

🧠 Как устроен алгоритм SayCan: Вероятности и прагматизм 8:14

Вместо генерации свободного текста, которая часто приводит к непредсказуемым формулировкам (например, вместо доступной команды «взять яблоко» модель может выдать «взять фрукт»), в SayCan используется скоринговая модель (scoring model). Из фиксированного набора базовых навыков робота алгоритм оценивает вероятность каждого текстового шаблона.

Параллельно с этим работают функции ценности (value functions), обученные для каждого индивидуального навыка. Они принимают на вход изображение с камеры робота и выдают вероятность успешного завершения этого действия в текущих условиях. Финальное решение принимается на основе перемножения этих двух вероятностей.

Пример из интервью: Если пользователь просит принести «какой-нибудь фрукт», языковая модель присвоит одинаково высокий балл действиям «взять яблоко» и «взять апельсин». Однако, если на столе лежит только яблоко, функция ценности для апельсина будет близка к нулю. В итоге робот выберет яблоко, успешно разрешив семантическую неопределенность за счет физического контекста.

Манипуляции осуществляются пошагово: после выполнения выбранного действия робот отправляет сигнал завершения (terminate action), фиксирует новое состояние среды через камеру и обновляет текстовый промпт истории (например, «Я уже сделал Х, далее я бы...»). Как отмечают исследователи, на текущем этапе у SayCan нет явного детектора долгосрочного успеха, и система полагается на то, что функции ценности скорректируют следующий шаг, если робот, к примеру, промахнется мимо объекта.

🏠 Экспериментальная кухня: От симуляции к реальным задачам 27:34

Для тестирования алгоритмов команда развернула масштабную инфраструктуру. Эксперименты проводились в двух типах сред: реальной офисной кухне Google и её точном макете. Для расширения обучающей выборки также применялась компьютерная симуляция, визуально приближенная к физическому миру.

В рамках тестового полигона были определены жесткие параметры:

Объекты манипуляции: 15 уникальных предметов (включая банки с газировкой, яблоки, губки).
Семантические локации: 5 ключевых зон (обеденный стол, мусорный бак, две стойки и позиция оператора).
Базовые навыки: Библиотека простых действий, часть из которых обучена методом клонирования поведения (behavioral cloning), а часть контролируется классическими алгоритмами пространственного планирования траекторий.

Фей Ся подчеркивает, что выбор базовых операций (в основном операций захвата и перемещения — pick and place) обусловлен их универсальностью. Добавление любого нового навыка в систему SayCan требует выполнения всего трех условий: текстового описания, политики управления и функции ценности.

📊 Масштаб данных и живые люди в контуре обучения 33:08

Сбор данных для SayCan потребовал колоссальных организационных усилий. Команда задействовала 11 роботов Everyday Robots, на которых операторы провели около 70 000 демонстрационных сессий в режиме телеуправления.

Особое внимание исследователи уделили качеству разметки функций вознаграждения. Вместо автоматических датчиков Google привлек краудсорсинг:

Каждое видео выполнения задачи оценивали три независимых человека.
Положительное вознаграждение (sparse reward равное 1) начислялось только при согласии минимум двух асессоров.
Разметчики фиксировали не только факт успеха, но и критические метки: «небезопасное поведение», «нежелательное действие» (например, если робот случайно толкнул лишний предмет) и «физическая невыполнимость».

Кароль Хаусман объяснил, что наличие шума в сигналах подкрепления критически ухудшает работу алгоритмов обучения. Исключение из выборки заведомо невыполнимых задач (где робот получал ноль не по своей вине) позволило значительно повысить стабильность обучения моделей. Ученые сознательно отказались от «плотного» вознаграждения (dense rewards, когда робота хвалят за каждое микродвижение в нужную сторону), посчитав, что редкое разреженное вознаграждение лучше масштабируется и не навязывает системе человеческие паттерны выполнения задач.

📈 Результаты тестов и главные узкие места 29:35

Эффективность SayCan проверялась на 101 комплексной инструкции, разбитой на несколько семантических категорий (понимание синонимов, абстрактные метафоры, запросы от реальных сотрудников).

В ходе масштабных испытаний были зафиксированы следующие показатели:

Успешность планирования (Planning success rate): 71%.
Успешность физического исполнения (Execution success rate): 66%.
Длинноцепочечные задачи (Long horizon tasks): Около 30–40% успешных исходов.

Примером сложнейшего сценария стал запрос: «Я пролил колу на стол, как мне её выбросить и принести что-то для уборки?». Здесь робот должен был не просто составить план из десятка шагов, но и семантически связать пролитую жидкость с необходимостью найти губку, а не просто убрать банку.

Исследователи провели абляционные исследования (ablation studies), отключая поочередно то языковую модель, то функцию ценности. Результаты без аффордансов (Can) или без семантики (Say) оказались драматически хуже. По словам Брайана Ихтера, без функций ценности робот полностью теряет связь с реальностью. Например, при генерации плана он продолжает пытаться найти предмет, который уже держит в руке.

🔮 Будущее робототехники и взгляд на Tesla Bot 52:08

Главным сдерживающим фактором развития подобных систем авторы называют не интеллект языковых моделей, а физические навыки самих роботов. Кароль Хаусман утверждает, что «узким горлышком» индустрии остается базовая моторика: создание манипуляторов, способных обобщать навыки на любые новые объекты и среды, до сих пор представляет собой фундаментальный вызов.

Комментируя по просьбе Янника Кильхера перспективы антропоморфного робота Tesla Bot, ученые высказали умеренный оптимизм, отметив сильные стороны компании Илона Маска в области масштабирования производства. Кароль Хаусман добавил, что Tesla является отличной хардверной компанией, и всему сообществу будет крайне интересно увидеть, как изменятся подходы к робототехнике, когда на рынке появятся тысячи доступных гуманоидных платформ. В ближайшие месяцы команда Google планирует выпустить упрощенную версию среды SayCan с открыстым исходным кодом, чтобы позволить академическому сообществу свободно экспериментировать с интеграцией LLM и физических агентов.