Развитие бытовой и промышленной робототехники стремительно приближается к моменту массового внедрения благодаря интеграции больших языковых и визуальных моделей. В интервью для канала Eye on AI ведущий Крейг Смит обсудил с ведущим исследователем Google DeepMind Винсентом Ванхуком революционную архитектуру мультимодальной модели RT-2 (Robotics Transformer 2). Эта технология позволяет роботам не просто выполнять жестко запрограммированные инструкции, а использовать накопленный человечеством «здравый смысл» для адаптации к совершенно незнакомым условиям реального мира.
👨💻 Эволюция Винсента Ванхука: от распознавания речи к «мозгу» для роботов 4:00
Путь Винсента Ванхука (Vincent Vanhoucke) в сфере искусственного интеллекта начался задолго до текущего бума больших языковых моделей. Ученый работает в компании Google уже около 16 лет. Свои первые шаги в компании он делал в области распознавания речи, однако со временем увлекся глубоким обучением (deep learning) и переключился на задачи компьютерного зрения. Как вспоминает сам исследователь, в определенный момент он задался вопросом о том, какими будут последствия для мира, если компьютерное зрение начнет работать идеально. Ответ стал для него очевидным: главным следствием станет фундаментальное изменение робототехники и появление автономных машин, способных полноценно функционировать в реальной среде.
Около 7 лет назад Ванхук принял решение полностью сосредоточиться на робототехнике и основал профильное исследовательское направление в рамках подразделения Google Brain. В то время использование глубокого обучения для управления физическими роботами представляло собой крайне узкую, нишевую исследовательскую повестку, а сама идея не казалась очевидной большинству коллег по цеху. Сегодня это направление стало общепризнанным стандартом, а главным вызовом для индустрии, по словам Ванхука, стало применение результатов текущей революции больших мультимодальных моделей для расширения возможностей роботов.
🤖 Архитектура RT-2: когда робот начинает говорить на своем языке 6:37
Разработанная командой Google DeepMind модель RT-2 (Robotics Transformer 2) представляет собой мультимодальную систему, которая по своему духу и внутренней логике близка к ИИ-ассистенту Gemini. На вход модель способна одновременно принимать как текстовые команды, так и визуальные данные с камер робота. Ключевая инновация подхода заключается в методе обучения: нейросеть тренировали на парах робототехнических данных, содержащих изображения и соответствующие им физические действия.
Ванхук описывает этот подход как обучение робота новому «языку»:
Мы относимся к действиям робота просто как к еще одному языку, на котором может разговаривать наш чат-бот.
С архитектурной точки зрения такое решение дает колоссальные преимущества. Модель автоматически получает доступ к «здравому смыслу» (common sense), заложенному в огромные массивы текстовых данных из интернета, на которых обучалась базовая LLM. Благодаря этому робот изначально «понимает» базовые законы физического мира. Например, модель знает, что можно поставить чашку на стол, но попытка поставить стол на чашку лишена смысла. Она также осознает, что из открытой бутылки жидкость может пролиться, в то время как закрытая бутылка безопасна для перемещения.
В отличие от многих классических подходов к робототехнике, в базовой версии RT-2 полностью отсутствует обучение с подкреплением (Reinforcement Learning). Модель целиком обучена методом контролируемого обучения (supervised learning) на размеченных данных, точно так же, как обучаются стандартные текстовые ИИ-модели. Тем не менее, Ванхук отмечает, что интеграция функций вознаграждения и алгоритмов вроде RLHF (обучение с подкреплением на основе отзывов людей) является следующим логичным шагом для повышения точности выполнения специализированных задач.
🧩 Семантическое планирование и «проверка реальностью» против галлюцинаций 9:15
Одной из главных проблем использования больших языковых моделей в робототехнике традиционно считалась их неспособность к точному долгосрочному планированию физических действий. Процесс выполнения комплексной задачи (например, приготовление чашки кофе) требует огромного количества мелких низкоуровневых операций — от перемещения манипулятора по множеству степеней свободы до точного позиционирования в пространстве. Если решать эту задачу исключительно на физическом уровне, цепочка планирования становится слишком длинной и нестабильной.
Команда Google DeepMind решила эту проблему путем переноса планирования в так называемое семантическое пространство. Вместо расчета точных геометрических координат на первом этапе система формулирует высокоуровневый план действий, используя семантику естественного языка. Ванхук приводит аналогию с обычным чат-ботом: если попросить ИИ составить инструкцию по приготовлению кофе для робота, он выдаст лаконичную и логичную последовательность шагов:
- Найти кофемашину.
- Поставить чашку в кофемашину.
- Нажать кнопку запуска.
Такая структура является компактным представлением сложной задачи. Затем модель RT-2 берет каждый из этих шагов и декомпозирует его в конкретные низкоуровневые команды. Поскольку RT-2 — это трансформерная модель, она разлагает действия робота на отдельные токены. Каждый такой токен кодирует конфигурацию пространства действий: углы поворота суставов манипулятора или положение захвата (гриппера). Фактически ИИ генерирует специализированный программный код под конкретного робота, причем этот процесс происходит в закрытом цикле (closed loop): сделав шаг, робот заново оценивает изменившееся состояние мира и корректирует дальнейший план.
Этот же закрытый цикл и постоянная связь с физическим окружением эффективно решают проблему ИИ-галлюцинаций, свойственную текстовым моделям. В отличие от классической LLM, которая оторвана от реальности на один уровень и оперирует только текстами, у робота перед глазами всегда находится физический мир. По словам Ванхука, робот в реальной кухне видит реальные объекты, что служит мощным якорем. Физическая реальность выступает в роли перманентной «проверки реальности» (reality check), радикально снижая риск того, что робот начнет взаимодействовать с несуществующими предметами.
🔮 Мечты робота о будущем: интеграция генеративных мировых моделей 15:50
В ходе дискуссии Крейг Смит поднял вопрос о концепции «мировых моделей» (World Models), разрабатываемых такими исследователями, как Ян Лекун (Yann LeCun) и Алекс Кендалл (Alex Kendall) из компании Wayve. Ведущий отметил, что подобные системы создают внутреннее представление реальности и планируют действия внутри него. Ванхук согласился с важностью этого подхода, однако указал на принципиальное различие между робототехнической сферой и областью беспилотных автомобилей. В контексте автономного вождения мир можно эффективно свести к геометрической задаче (избегать столкновений с пешеходами, соблюдать разметку) и планировать маршрут в рамках этой геометрии. Для универсальных же роботов создать упрощенную геометрическую модель всего многообразия мира невероятно сложно, именно поэтому DeepMind сделала ставку на семантическое планирование.
Тем не менее, генеративный ИИ открывает захватывающие перспективы для создания генеративных мировых моделей. Современные технологии позволяют роботам буквально «визуализировать» и прогнозировать последствия собственных действий. Имея качественную видеогенеративную модель, робот способен смоделировать гипотетическое будущее.
Как утверждает Ванхук, алгоритм может проанализировать сценарии:
Что произойдет, если я нажму эту кнопку или если я направлюсь в это конкретное место?
В экспериментах DeepMind робот генерирует подобные видеопрогнозы на определенный временной горизонт вперед, оценивает полученный визуальный результат и на основе этого решает, приближает ли данное действие его к намеченной цели. Исследователь описывает этот процесс метафорически: робот буквально «грезит» о своих возможных вариантах будущего, выбирая на основе этих снов оптимальное решение. По мнению Ванхука, интеграция таких мировых моделей с визуально-языковыми архитектурами станет одним из главных трендов развития индустрии в ближайшие годы.
🌐 Проект RTX и универсальные «диалекты» робототехники 24:51
Долгое время в робототехнике доминировало убеждение, что из-за различий в конструкции, количестве степеней свободы и конфигурациях камер для каждого отдельного робота необходимо обучать свою изолированную модель. Однако в ходе разработки RT-2 команда DeepMind столкнулась с поразительным феноменом. Выяснилось, что специфические «языки» управления разными роботами на самом деле являются всего лишь родственными «диалектами» одного общего языка. Инженерам не требуется создавать обособленный ИИ под каждое устройство — напротив, сквозное обучение на разнородных платформах демонстрирует мощный положительный перенос навыков (positive transfer). Добавление нового робота с его уникальным физическим телом и опытом улучшает показатели всей системы в целом.
Чтобы проверить эту гипотезу на глобальном уровне, DeepMind инициировала проект RTX, объединивший более 20 ведущих научных институтов и лабораторий со всего мира. Организаторы попросили участников предоставить свои массивы данных без какой-либо жесткой предварительной курации. Ванхук подчеркивает, что данные были максимально разнородными:
- Камеры располагались в совершенно разных точках пространства.
- Сами роботы кардинально отличались по своим характеристикам и форм-факторам.
- Выполняемые роботами задачи не имели друг с другом ничего общего.
Собрав весь этот массив воедино, команда DeepMind обучила одну гигантскую универсальную модель и разослала полученные веса (чекпоинты) обратно в участвующие институты для независимой и объективной оценки. Результаты оказались ошеломляющими: абсолютно все лаборатории зафиксировали выраженный рост эффективности своих роботов благодаря переходу на эту общую, более масштабную модель.
По мнению Ванхука, этот успех станет поворотной точкой для мирового сообщества робототехников, переломив традиционный скепсис относительно совместного использования данных и запустив мощный вирусный цикл коллабораций между независимыми лабораториями. В рамках этой стратегии открытости DeepMind уже выложила в открытый доступ исходный код обучения и чекпоинты для более компактной и портативной модели предыдущего поколения — RT-1, позволяя сторонним разработчикам создавать на ее основе собственные модификации.
Что касается интеграции ИИ с передовым «железом» от Boston Dynamics, Ванхук напомнил, что эта компания больше не принадлежит Google, поэтому прямого доступа к их платформам у исследователей нет. Однако DeepMind сознательно стремится быть аппаратно-агностичной (hardware agnostic) компанией. Их фокус сосредоточен не на механике, а на создании универсального цифрового «мозга», способного наделить интеллектом практически любой форм-фактор современного робота. По оценке Ванхука, текущий прогресс в робототехнике будет идти нога в ногу со стремительной эволюцией мультимодальных моделей вроде Gemini, поскольку программная прослойка управления роботами теперь способна напрямую и без задержек впитывать все фундаментальные прорывы базового ИИ.