Как проект RT-X объединил 34 лаборатории и ускорил обучение роботов

Развитие искусственного интеллекта постепенно выводит технологии из цифрового пространства в физический мир, трансформируя современную робототехническую индустрию. В интервью для подкаста «Eye on AI» доцент Калифорнийского университета в Беркли Сергей Левин подробно описывает актуальные прорывы в области машинного обучения роботов, механизмы создания универсальных моделей управления и перспективы появления домашних роботов-помощников. Ключевой темой беседы стал переход от изолированных систем к глобальному объединению данных, способному наделить машины гибкостью человеческого мышления.

🤖 Обучение подражанием и «модели мира»: основы ИИ-управления в робототехнике 1:11

В современной робототехнике существует несколько фундаментальных подходов к обучению агентов управлению физическими телами. Самым простым и распространенным методом является обучение подражанию (imitation learning). Этот подход заключается в том, что человек-оператор демонстрирует роботу выполнение определенной задачи, управляя им дистанционно, а алгоритм пытается в точности воспроизвести зафиксированную последовательность действий. По мнению Сергея Левина, популярные сегодня большие языковые модели по своей сути являются гигантскими машинами для обучения подражанию, поскольку они обучены имитировать тексты, созданные людьми.

Альтернативным и более глубоким методом выступает концепция «моделей мира» (world models), которая в классической теории машинного обучения называется обучением с подкреплением на основе модели (model-based RL). Модель мира представляет собой динамическую систему, которая способна прогнозировать, как именно изменится окружающая среда в ответ на те или иные действия робота. Моделирование динамики среды — это исторически старая дисциплина: первые методы управления на основе нейронных сетей использовали предсказание состояний еще до того, как популярность приобрели алгоритмы обучения с подкреплением без построения модели (model-free RL).

Реализовать модель мира на практике можно различными путями:

Прогнозирование видеопотока: нейросеть принимает текущие визуальные наблюдения с камер робота и пытается покадрово предсказать будущие пиксели изображения.
Нереконструктивные представления: алгоритм обучается фиксировать абстрактное состояние системы и предсказывать его изменение на глубинном уровне, не возвращаясь к непосредственному рендерингу пикселей.

По оценке Сергея Левина, для создания систем управления роботами вовсе не обязательно предсказывать сырые пиксели будущих кадров. Прогнозирование визуального ряда и предсказание наград или исходов с помощью функций ценности (value functions) принципиально не отличаются друг от друга. Гость утверждает, что гораздо более важным фактором для работы роботов в открытом и неструктурированном мире является характер данных, на которых обучается система. Если инженеры хотят получить манипуляторы, способные функционировать в произвольных домашних условиях или на кухнях, алгоритмы необходимо снабжать соответствующими масштабными и разнообразными датасетами.

🌐 Проект RT-X: Как объединение данных 34 лабораторий совершило прорыв 6:05

Ограниченность данных долгое время оставалась главным барьером на пути к универсальной робототехнике. Сергей Левин заявляет, что собрать достаточный объем и разнообразие информации силами одного робота в рамках одной комнаты практически невозможно. Чтобы преодолеть этот тупик, Google, Калифорнийский университет в Беркли и еще несколько десятков академических организаций запустили масштабный совместный проект под названием RT-X.

Суть инициативы заключалась в сборе и агрегации датасетов из 34 различных исследовательских лабораторий по всему миру. Целью эксперимента было проверить, сможет ли единая нейросетевая модель успешно управлять роботами с совершенно разной морфологией. В рамках исследования ученые обучали общую модель выполнять манипуляционные задачи, координируемые текстовыми командами на естественном языке, например: «Возьми помидор и положи его в миску».

После завершения обучения готовые веса нейросети были переданы обратно во все лаборатории-участники для проведения сравнительных тестов. Каждая научная группа сравнивала универсальную модель со своими локальными алгоритмами, которые годами затачивались под конкретное оборудование.

Результаты эксперимента продемонстрировали следующие показатели:

Мультироботизированная модель RT-X оказалась в среднем на 50% эффективнее (по показателю успешности выполнения задач), чем специализированные локальные системы.
В тестах на оборудовании компании Google, которая предоставила самый большой массив данных (около 100 000 испытаний мобильной колесной базы), интеграция сторонних данных привела к трехкратному (3X) улучшению выполнения сложных инструкций.

Эти сложные тестовые сценарии требовали от роботов пространственного мышления и синтеза знаний, предварительно извлеченных из интернета. Тот факт, что добавление данных из разрозненных академических лабораторий настолько сильно улучшило показатели тщательно курируемого датасета Google, указывает на существование «эмерджентного эффекта» при масштабировании данных из разнородных источников. В настоящее время этот объединенный датасет полностью открыт для публичного скачивания.

⚙️ Архитектурное единство: от базовых трансформеров к моделям RT-1 и RT-2 10:16

С технической точки зрения поразительно то, что абсолютно одна и та же модель с идентичными весами одновременно управляла и маленьким дешевым роботом WidowX (длиной около 50 сантиметров со слабым сервоприводом), и огромным тяжелым промышленным манипулятором UR-10, созданным для заводов. Нейросеть получала на вход только картинку с камеры конкретного устройства и текстовую команду, самостоятельно догадываясь, какой именно тип манипулятора с параллельным захватом находится под ее контролем в данный момент.

В ходе исследовательских работ команда Сергея Левина опиралась на две ключевые архитектуры:

RT-1: модель, разработанная в Google. Она представляет собой классический трансформер, который принимает текстовую инструкцию, текущее изображение и на выходе генерирует дискретизированные, токенизированные команды для приводов робота.
RT-2: более продвинутое решение, использующее в качестве фундамента предобученную на текстах и картинках из интернета визуально-языковую модель (Vision-Language Model, VLM). Разработчики провели тонкую настройку (fine-tuning) этой VLM-матрицы, добавив к стандартным задачам генерации подписей и ответов на вопросы новую функцию — вывод управляющих токенов для робота в ответ на визуальные наблюдения.

Благодаря гигантскому объему знаний, изначально заложенных в VLM из интернета, модель RT-2 демонстрирует гораздо более высокий уровень понимания физического контекста и сложных пространственных связей между объектами.

Параллельно группа Левина развивает методы автономного обучения с подкреплением (offline RL). В отличие от традиционного обучения подражанию, которое просто копирует действия оператора, алгоритмы offline RL анализируют массив исторических данных и пытаются синтезировать стратегию поведения, которая будет превосходить среднее качество демонстраций из исходного датасета. Проще говоря, робот использует накопленный опыт, чтобы понять, какие варианты действий ему доступны, и выбрать среди них наиболее оптимальный, даже если человек в процессе записи данных ошибался.

🏠 Домашние роботы и платформа Aloha: новое дыхание дешевого «железа» 18:50

В обществе и медиа наблюдается волна оптимизма касательно появления полноценных домашних роботов-помощников в ближайшие 3–5 лет. Ведущий Крейг Смит выразил сомнение в реалистичности этих сроков, отметив, что современное аппаратное обеспечение (hardware) пока не готово к работе в хаотичной, неструктурированной домашней среде.

Сергей Левин высказал альтернативную точку зрения: по его мнению, развитие алгоритмов искусственного интеллекта должно существенно снизить требования к качеству и стоимости самого «железа». Гость привел в пример бытовой инструмент для сбора мусора (длинную палку-хваталку) — даже с помощью такого примитивного устройства человек может навести порядок на полу или прибраться в кухне. Соответственно, роботам не всегда нужны сверхдорогие индустриальные узлы.

В качестве подтверждения этого тезиса Левин выделил проект своего студента Тони Чжао из исследовательской группы профессора Челси Финн — bimanual-систему под названием Aloha.

Особенности платформы Aloha:

Низкая стоимость: система собрана из двух доступных роботизированных рук от компании Trossen Robotics, цена каждой из которых составляет около $5 000 (фактически это продвинутый хобби-уровень).
Удобная телеоперация: ключевое достижение заключалось не в изменении архитектуры нейросети, а в создании кастомной механической системы двуручного дистанционного управления (tele-operation rig). Холдинг этой конструкции в руках позволял оператору легко передавать высококачественные демонстрационные данные.
Сложные навыки: управляемый стандартными трансформерными алгоритмами без революционных математических новшеств, этот дешевый робот научился обувать ногу в кроссовок и заклеивать картонную коробку скотчем.

Тем не менее, Сергей Левин признает наличие проблемы «длинного хвоста» (long tail) редких критических ситуаций. Ситуация аналогична беспилотным автомобилям: создать автономную машину, которая успешно справляется с дорогой в 90% случаев, инженеры смогли еще более десятилетия назад. Однако ликвидация оставшихся долей процента редких сбоев и tail cases для обеспечения абсолютной безопасности на любых дорогах остается открытой проблемой. По прогнозу гостя, базовые домашние функции роботы начнут выполнять уже скоро, но полная адаптация к «длинному хвосту» неопределенностей займет много лет.

🧠 Семантическое планирование и цепочки рассуждений в реальном мире 24:11

В течение последних двух лет робототехника активно заимствует инструменты из сферы генеративного ИИ для построения долгосрочных планов действий. Одним из первых знаковых прорывов в этой области стала публикация статьи SayCan от специалистов Google. В этой работе большая языковая модель использовалась в качестве верхнеуровневого диспетчера: она разбивала абстрактную цель на последовательность символьных шагов, которые затем передавались локальным низкоуровневым контроллерам движения.

Изначально стыковка символьного мышления LLM и богатого физического восприятия (сенсорики) была трудной задачей, требовавшей создания сложных интерфейсов, таких как байесовская фильтрация в проекте Grounded Decoding. Однако за последние 6–9 месяцев тренд сместился в сторону сквозного обучения (end-to-end) единых монолитных моделей.

Современные визуально-языковые модели, обученные управлять роботами, способны реализовывать аналог «цепочки рассуждений» (chain of thought) прямо в процессе выполнения физической работы. Получив комплексный запрос, робот сначала генерирует текстовый план действий, а затем выдает моторные команды для первого шага.

Сергей Левин привел пример эксперимента с архитектурой RT-2, иллюстрирующий способность ИИ к семантическому выводу в нестандартных ситуациях:

«Мы намеренно создали сцену, где правильное поведение было неочевидным. На столе лежали обычные бытовые предметы, но нужного инструмента не было. Роботу дали задачу забить гвоздь, однако молотка поблизости не оказалось — вместо него лежал камень. Мы спросили модель: „Тебе нужно забить гвоздь, что ты сделаешь?“. RT-2 выдала текстовый ответ „камни“ (rocks), после чего перешла к генерации физических действий, протянула манипулятор и взяла камень».

Хотя Левин классифицирует этот пример как примитивную форму планирования, больше похожую на семантический вывод, он уверен, что в ближайшие годы данные механизмы претерпят колоссальный качественный прогресс.

🇨🇳 Конкуренция, открытый код и технологический прорыв Китая 31:05

Переход к крупным робототехническим моделям обострил проблему вычислительных мощностей (compute constraints). Самая большая конфигурация модели RT-2 насчитывает 500 миллиардов параметров, что ставит ее в один ряд с крупнейшими текстовыми суперсетями современности и требует огромных ИТ-ресурсов для обучения.

В контексте споров вокруг коммерческих закрытых систем и open-source решений ситуация в робототехнике выглядит специфически. Крупные складские корпорации обладают огромными парками развернутых роботов, но их данные однообразны и ограничены простым захватом коробок. Из-за этого открытые датасеты академических консорциумов часто оказываются более ценными и разнообразными для создания универсального интеллекта. Сергей Левин отмечает, что явного монопольного лидера по объему нужных данных в индустрии пока нет просто потому, что таких данных глобально не хватает всем участникам рынка.

Отдельно гость выделил стремительное развитие робототехники в Китае. Во время работы над проектом RT-X американские ученые обнаружили, что исследователи из Шанхая параллельно выпустили собственный открытый датасет, сопоставимый по масштабу, разнообразию и качеству с международным проектом Левина.

Более того, Китай стал важнейшим драйвером доступного аппаратного обеспечения:

Одним из самых востребованных в мире инструментов для исследований в области четвероногой локомоции (робособак) стали роботы компании Unitree из Китая.
Их популярность среди ученых в США обусловлена простотой конструкции, доступной ценой и открытой архитектурой, позволяющей исследователям глубоко проникать во внутренние программные слои.

Сам Сергей Левин совмещает научную деятельность в Беркли с работой в Google DeepMind, уделяя корпоративным исследованиям 20% своего времени. По его мнению, робототехника пока еще сильнее привязана к академической среде, нежели обработка естественного языка (NLP) или компьютерное зрение, поскольку фундаментальные вопросы управления физическими телами требуют разрешения до того, как они начнут приносить стабильную бизнес-выручку.

По оценке эксперта, моментом широкого коммерческого прорыва и признания робототехники обществом станет масштабная инвестиция ресурсов в инженерную доработку и сбор данных, аналогичная той, что превратила старые алгоритмы предсказания токенов в феномен ChatGPT. Левин предполагает, что эта технологическая инфлексия произойдет скорее в горизонте пяти, нежели десяти лет.