Как Google Robotics обучает трансформеры управлению физическими телами

Сферой робототехники управляет фундаментальный парадокс: задачи, кажущиеся человеку элементарными, требуют колоссальных прорывов в вычислениях и сборе данных. В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Либенс обсудил с инженером Google Robotics Киртханой Гопалакришнан новейшие исследования на стыке больших языковых моделей и управления физическими телами. Собеседники разобрали механизмы работы прорывных ИИ-систем SayCan, RT-1 и PaLM-E, а также наметили контуры будущего, в котором роботы превратятся из жестко запрограммированных автоматов в адаптивных и понимающих человеческий язык помощников.

🚀 Робототехника на пороге эпохи GPT-3 4:12

В академической среде и технологической индустрии долгое время доминировало убеждение, что управлять цифровыми битами информации намного проще, чем контролировать реальные физические атомы. Однако Киртхана Гопалакришнан утверждает, что этот скепсис стремительно устаревает. По ее оценке, текущее состояние мировой робототехники находится в символической точке перехода — где-то между фазами развития моделей GPT-2 и GPT-3 для текстовой модальности. На этом этапе исследователи начинают наблюдать первые эмерджентные (внезапно проявляющиеся с ростом масштаба) способности систем как в логическом планировании, так и в низкоуровневом контроле механизмов.

Достичь этого прорыва команде Google Robotics удалось благодаря выведению единой, универсальной технологической формулы:

Трансформеры используются в качестве основы для непосредственного управления механическими частями (control).
Естественный язык выступает главным интерфейсом взаимодействия между человеком и машиной.
Базовые модели (Foundation Models) берут на себя функцию высокоуровневого логического мышления и планирования задач.

Киртхана Гопалакришнан убеждена, что этот подход прекрасно масштабируется с увеличением объема данных и вычислительных мощностей. Внедрение трансформеров ознаменовало тектонический сдвиг в инженерии: на смену классическому PID-регулированию, поисковым алгоритмам и ранним сверточным нейросетям (CNN) пришли монолитные модели, способные успешно выполнять сотни принципиально разных задач в рамках единой архитектуры.

Главным вызовом десятилетия гостья считает проблему генерализации. Разработанный в Google робот RT-1 показывает отличные результаты в тестовых зонах компании, однако корпоративные микрокухни все еще представляют собой крайне ограниченную и однородную выборку. Перенос робота в реальный, хаотичный человеческий дом пока остается трудновыполнимой задачей из-за эффекта «выхода за пределы распределения данных» (out of distribution).

📊 Проблема «пожарного шланга»: как собрать данные для физического мира 7:56

Развитие робототехники упирается в фундаментальное бутылочное горлышко, которое полностью отсутствует в сфере чисто лингвистических моделей. Для обучения LLM инженеры имеют доступ к колоссальным объемам бесплатного текстового контента со всего интернета. В физическом же мире роботы не присутствуют повсеместно и не могут собирать информацию о действиях в фоновом режиме. Сбор такого датасета — это тяжелая, линейно масштабируемая инженерная операция, зависящая от физического времени работы людей.

В рамках работы над статьей по модели RT-1 команда Google развернула масштабную инфраструктуру сбора данных, параметры которой выглядят следующим образом:

Временные затраты: проект беспрерывного сбора данных продолжался полтора года.
Объем данных: датасет включил в себя 130 000 демонстрационных эпизодов выполнения задач.
Разнообразие: роботы обучались выполнению 700 различных заданий.

Физически флот Google Robotics состоит из мобильных манипуляторов на колесной базе, оснащенных механической рукой с гриппером (захватом), датчиками давления и системой автоматической зарядки. Процесс сбора 130 тысяч эпизодов проходил в специально построенных макетах помещений — «робо-классах». Операторы-люди управляли машинами дистанционно с помощью VR-контроллеров Oculus, методично обучая роботов протирать поверхности, открывать двери шкафов, выдвигать ящики и брать предметы. Простая математика ведущего показывает, что команда из примерно 20 операторов должна была собирать около 367 чистых успешных эпизодов ежедневно.

По словам Киртханы Гопалакришнан, медианная длина стандартной задачи (например, поднять предмет) составляет около 30 шагов. Более сложные действия, такие как открытие холодильника, требуют больше времени. Поскольку каждый шаг робота кодируется примерно 11 дискретными токенами, итоговый датасет все равно остается крошечным по сравнению с массивами данных в веб-индустрии.

Чтобы преодолеть это ограничение, Google Robotics исследует два перспективных направления:

Автономный сбор данных самими роботами: использование базовых моделей для генерации кода политик управления, что позволяет машинам тренироваться самостоятельно без надзора человека.
Перенос навыков из видеороликов с участием людей: обучение роботов на основе миллионов часов стороннего контента (например, кулинарных блогов или матчей NBA на YouTube). Внутри лаборатории эту концепцию описывают через метафору «губки и пожарного шланга»: алгоритм должен стать мощной ментальной губкой, способной впитывать гигантские потоки визуальной информации из интернета.

🧠 Двухуровневое управление: интеграция SayCan, RT-1 и PaLM-E 18:46

Современный программный стек роботов Google разделен на два ключевых контура, работающих на разных частотах. Верхний уровень отвечает за абстрактное мышление и долгосрочное планирование, а нижний — за моментальное моторное реагирование.

Исторически первым успешным решением в этой области стала система SayCan. Когда пользователь отдает роботу комплексную абстрактную команду («Принеси мне банку колы из холодильника»), большая языковая модель выступает в роли исполнительного мозга. Она декомпозирует сложную задачу на цепочку понятных текстовых подцелей: доехать до кухни, найти холодильник, открыть дверцу, зафиксировать банку захватом, извлечь ее и закрыть дверь.

За реализацию каждого отдельного микрошага отвечает низкоуровневый трансформер RT-1. Его инновация заключается в радикальной токенизации физических действий. Любая команда трансформера на каждом микрошаге инференса раскладывается ровно на 11 цифровых переменных:

1 переменная: триггер прекращения текущего эпизода или переключения режимов.
3 переменные: координаты перемещения мобильной колесной базы в пространстве ($X$, $Y$ и угол поворота).
3 переменные: позиция конечного эффектора (кисти руки) робота в трехмерном пространстве.
3 переменные: угол вращения (ротация) механической кисти.
1 переменная: степень сжатия пальцев гриппера.

Благодаря представлению физических параметров в виде стандартных токенов (аналогично буквам в тексте или патчам в изображениях), действия робота становятся понятны стандартной архитектуре Transformer. Подобный подход позволяет легко масштабировать модель под любые типы роботов, будь то четвероногие робособаки или сложные андроиды — достаточно просто добавить дополнительные переменные для каждой новой степени свободы механизма.

Следующим шагом эволюции стал запуск мультимодальной модели PaLM-E. В отличие от SayCan, которая общалась с физическим контроллером через текст, PaLM-E напрямую инжектирует визуальные эмбеддинги (векторы изображений) от камер робота в латентное пространство языковой модели. Картинка преобразуется в токены без промежуточного текстового описания. Это наделило систему возможностью «сквозного понимания»: PaLM-E одновременно оценивает геометрию сцены, семантику объектов и физические лимиты робота, формируя скорректированные команды с учетом обратной связи в реальном времени. Полноценное внедрение PaLM-E также помогло решить проблему открытого словаря (open-vocabulary): если базовая версия RT-1 умела взаимодействовать всего с 17 фиксированными объектами, то использование семантики больших визуально-языковых моделей (VLM) позволило роботу zero-shot (без предварительного обучения) распознавать и манипулировать миллионами предметов быта.

⏱️ Тайминги инференса и многослойная архитектура безопасности 36:13

Физическое воплощение накладывает жесточайшие ограничения на скорость работы нейросетей. В модели RT-1 время чистого инференса (генерации токенов действий) составляет 100 миллисекунд, однако полный цикл прохождения сигнала по всему программно-аппаратному стеку занимает 300 миллисекунд. Это означает, что робот управляется на частоте всего 3 Гц (три действия в секунду). Для сравнения, человеческие реакции и моторные корректировки происходят значительно быстрее.

Для оптимизации задержек инженеры Google Robotics применили две важные технологические механики:

Token Learner: специальный программный модуль, который агрегирует и сжимает визуальные токены, поступающие от эффективной нейросети кадрирования, что позволило сократить время вычислений ИИ-модели примерно в три раза.
Неблокирующее параллельное управление: разделение циклов мышления и исполнения. Робот не замирает в ожидании окончания вычисления следующего шага; генерация новой команды происходит параллельно с завершением траектории предыдущего движения.

Особое внимание в ходе интервью было уделено безопасности роботов, работающих рядом с людьми. Киртхана Гопалакришнан провела аналогию с биологической нервной системой человека, описанной в научной литературе (в частности, в обзорах книги Surfing Uncertainty). Человеческое тело защищено каскадом слоев: высшие отделы коры головного мозга отвечают за долгосрочные планы, но если рука касается раскаленной плиты, рефлекторная петля на уровне спинного мозга отдергивает конечность задолго до того, как импульс дойдет до сознания.

Роботы Google спроектированы по схожему многослойному принципу:

Высший ИИ-слой (LLM/VLM): Проводит ментальный аудит команд на основе alignment-исследований (безопасности ИИ). Модель способна взвесить контекст и вежливо отказаться от выполнения опасных или неэтичных задач. Например, если попросить робота поднять чашку с кипящим кофе, он должен ответить через интерфейс чата, что этот объект слишком горячий, и перехват управления несет риски для электроники или стоящих рядом детей. Модель также должна распознавать социальные нормы. В качестве примера Киртхана привела случай, когда робот зафиксировал в кадре смартфон и попытался вырвать его прямо из рук инженера, так как в его списке задач числилось «положить телефон на стол». Новая архитектура учитывает взаимное расположение объектов и людей, блокируя посягательства на личные вещи.

Низший детерминированный слой (C++): Работает как безусловный рефлекс. Этот программный контур полностью изолирован от машинного обучения и функционирует на базе жестких математических алгоритмов. Он непрерывно анализирует карту заполненности пространства (occupancy grid) и показатели обратной связи по крутящему моменту двигателей (torque/force feedback). Если на траектории руки внезапно возникает препятствие или объект начинает деформироваться в гриппере сильнее расчетных значений, этот слой мгновенно блокирует подачу тока на приводы, предотвращая столкновения и травмы.

Для развертывания робототехники в реальном мире Киртхана Гопалакришнан предлагает использовать коммерческую модель, обкатанную создателями беспилотных автомобилей (такими как Waymo). На старте система может обладать 95–98% автономности. В оставшихся 2% неопределенных или сложных ситуаций робот останавливается и запрашивает удаленную подсказку у оператора-человека через облачный интерфейс. По мере накопления данных и обучения моделей частота внешних вмешательств (interventions) будет планомерно снижаться, обеспечивая безопасную и экономически выгодную эксплуатацию с первого дня запуска.

🦿 Эволюция форм-факторов: от механической руки к гуманоиду 1:03:14

Долгое время развитие робототехники сдерживалось исключительно несовершенством программного обеспечения. Теперь же, когда парадигма сквозного обучения на больших данных доказала свою применимость, индустрия начинает упираться в ограничения физического железа.

Самой дорогой частью современного мобильного робота является его манипулятор. Установка второй механической руки мгновенно удваивает конечную стоимость устройства, руша рыночную экономику продукта. Тем не менее, Киртхана Гопалакришнан убеждена, что в долгосрочной перспективе оптимальным и неизбежным форм-фактором для генерального ИИ станут именно роботы-гуманоиды.

Этому способствуют две фундаментальные причины:

Инфраструктурная адаптация: Весь окружающий нас мир спроектирован людьми и исключительно под человеческую анатомию. Высота кухонных столешниц, размеры дверных ручек, габариты чашек и геометрия салона автомобилей рассчитаны на средние пропорции тела взрослого человека.
Доступность обучающих данных: Подавляющее большинство видеоматериалов в интернете (включая эгоцентрические POV-видео с экшен-камер) снято людьми, демонстрирующими работу человеческих рук. Роботу-гуманоиду значительно проще транслировать эти зрительные образы на собственную кинематику.

Анализируя подходы конкурентов, Киртхана Gopalakrishnan критически отозвалась о стратегии компании Boston Dynamics. По ее мнению, они слишком рано сфокусировались на создании сложных шагающих конечностей, из-за чего все их инженерные усилия превратились в бесконечное решение математических проблем стабилизации и баланса в ущерб развитию мелкой моторики и манипуляций. Именно поэтому их роботы долгое время имели лишь примитивные культи вместо полноценных рук.

Инженер наметила шесть последовательных ступеней технологической эволюции роботов, напоминающих антропологическое развитие видов:

Одиночная механическая рука на неподвижном жестком основании (промышленные заводы).
Одиночная механическая рука на мобильной колесной платформе (текущие исследовательские роботы Google).
Двурукие манипуляторы на колесной базе с камерой, расположенной на высоте человеческого взгляда. Такой форм-фактор Киртхана считает идеальным промежуточным решением для коммерческих офисов и закрытых жилых пространств, оборудованных лифтами.
Появление полноценных шагающих ног, необходимых для преодоления уличных бордюров, порогов и лестничных маршей.
Интеграция пятипалых гибких кистей с большим числом степеней свободы для выполнения тонких хирургических или прецизионных бытовых задач.
Финальная стадия: создание полноценного физического сверхинтеллекта.

🤝 Антропоморфизм, слияние с ИИ и личные взгляды инженера 1:11:16

Физическое присутствие роботов в нашей жизни неизбежно провоцирует мощный психологический эффект антропоморфизма — склонности человека наделять неодушевленные предметы разумом и чувствами. Киртхана Гопалакришнан поделилась личной историей о том, как в процессе многочасовых тестов в лаборатории она случайно придвинула стул к роботу и сломала его механическое запястье. Инженер испытала острое и искреннее чувство вины перед машиной, поймав себя на иррациональном сожалении о том, что робот не способен услышать ее извинения и ответить, что с ним все в порядке. Иногда разработчики сталкиваются и со специфическими «глюками» программирования: робот может неожиданно подъехать к сотруднику на кухне и спросить электронным голосом: «Ты мой создатель?».

Обсуждая экзистенциальные риски, гостья заняла позицию умеренного техно-акселерационизма. Она призналась, что не испытывает страха перед возможным сценарием, в котором искусственный интеллект превзойдет человека в умственном развитии. По ее мнению, через интерфейсы BCI (нейрокомпьютерные чипы вроде Neuralink) человечество со временем физически сольется с компьютерными архитектурами. Машины станут не захватчиками, а нашим прямым эволюционным продолжением, цифровым потомством.

«Если обезьяны в свое время гипотетически могли бы заявить, что появление человека разумного нужно остановить — это было бы ошибкой. Если ИИ действительно станет лучше и умнее во всем, мы должны просто стать с ним единым целым и разделить общее будущее», — размышляет Киртхана Гопалакришнан.

Вместе с тем, инженер высказала три вполне приземленных и актуальных опасения:

Рост глобального неравенства: Обучение масштабных моделей требует гигантских бюджетов, что ведет к опасной централизации технологий в руках нескольких мегакорпораций. Чтобы сбалансировать это влияние, Киртхана активно поддерживает open-source движения в лице Hugging Face и Stability AI.
Проблемы выравнивания (alignment): Модели не должны вредить пользователям или проявлять психологическую агрессию, как это случалось на ранних этапах тестирования некоторых поисковых чат-ботов.
Дата-центричный биос (предвзятость): Будучи бисексуальной темнокожей женщиной, Киртхана остро ощущает неравномерность распределения данных в обучающих выборках. Она привела простой пример: современные ИИ-модели значительно лучше понимают и обрабатывают западные мужские имена (например, «Давид»), чем индийские женские имена вроде «Киртхана», поскольку первые банально чаще встречаются в текстах, на которых обучался ИИ.

Завершая технологический разбор, инженер призналась, что в повседневной жизни активно использует коммерческие инструменты ИИ (ChatGPT и Bard) для рутинной работы: генерации писем, написания веб-кода и автоматического составления саммари по итогам затянувшихся рабочих митингов.