Gemini на заводах Foxconn: как DeepMind создает физический ИИ

Развитие искусственного интеллекта постепенно выходит за рамки цифрового пространства, заставляя исследователей искать новые подходы к его интеграции в физический мир. В новом выпуске подкаста The Cognitive Revolution исследователи из лаборатории Google DeepMind Киртхана и Тед обсуждают масштабный технический отчет Gemini Robotics, описывающий создание базовых моделей нового поколения для управления роботами. По их оценкам, робототехника преодолела стадию простейших лабораторных демонстраций и стремительно приближается к моменту, когда универсальные физические агенты смогут выполнять сложнейшие манипуляции в неструктурированной человеческой среде.

🔄 Итоги года в робототехнике: от лабораторных тестов к коммерциализации 4:08

За последний год ландшафт робототехники претерпел фундаментальные изменения, вызванные как притоком венчурного капитала, так и технологическими прорывами. Как отмечает Киртхана, сегодня в сообществе появилось чёткое понимание того, что обучение с подражанием (imitation learning) эффективно работает на практике, а алгоритмы двуногой ходьбы (oral walking) для гуманоидных роботов стали массово приносить результаты. Дополнительным стимулом для индустрии стало появление огромного количества дешёвого аппаратного обеспечения, чертежи и результаты тестирования которого инженеры активно публикуют в открытом доступе.

Тед добавляет, что главным достижением года стало смещение ориентиров: академическое сообщество наконец вышло за рамки простых задач по перемещению объектов на столе (tabletop pick and place), которые доминировали в лабораториях последнее десятилетие. Большинство ключевых игроков перешли к тестированию роботов в реалистичных, неструктурированных средах обитания человека, одновременно повышая планку надёжности, производительности и универсальности систем ради последующей коммерциализации. Демонстрации, которые восхищали публику ещё год назад, сегодня кажутся обыденными, поскольку современные релизы практически всегда вовлекают сложные гуманоидные платформы, многопалые конечности или работу двух манипуляторов сразу (bi-arm) в реальном мире. Киртхана подчёркивает, что этот прогресс привлёк пристальное внимание венчурных инвесторов, что кардинально меняет стратегии поведения компаний и степень открытости их передовых разработок.

📊 Эпоха моделей GPT-3: где находится современный «мозг» робота 6:37

Два года назад, во время своего первого визита на подкаст, Киртхана сравнивала состояние систем управления роботами с эпохой языковой модели GPT-2. Текущую ситуацию Тед с алгоритмической точки зрения оценивает оптимистичнее, помещая современные робототехнические модели где-то между уровнями GPT-3 и GPT-3.5. По его словам, именно на этом этапе большие языковые модели начали стабильно работать «из коробки» без обязательной тонкой настройки под каждую узкую задачу, превращаясь из простых инструментов автодополнения текста в полноценных инструктивных агентов.

Вместе с тем, Киртхана убеждена, что индустрия ещё не достигла своего полноценного «момента ChatGPT» (ChatGPT moment). Она указывает на фундаментальное различие в механизмах технологической диффузии:

Для массового тестирования ChatGPT потребителям не требовалось новое оборудование — у каждого уже был смартфон или ноутбук.
В случае с физическим ИИ пользователь не может оценить возможности цифрового «мозга», не имея физического тела робота.

Возникает классическая проблема курицы и яйца: для развертывания роботов клиенты должны быть уверены в возможностях моделей, а моделям для обучения и демонстрации этих возможностей критически необходимы данные, собираемые парком уже существующих роботов. По мнению Киртханы, физические действия (actions) сейчас прогрессируют значительно медленнее, чем процессы рассуждения (reasoning) и восприятия, поскольку последние могут напрямую заимствовать архитектурные находки и масштабы из общих исследований в области компьютерного зрения и мультимодальных моделей. Тем не менее, Тед фиксирует появление на горизонте предсказуемых законов масштабирования (scaling laws) для робототехники, аналогичных тем, что превратили языковое моделирование в строгую инженерную науку в эпоху GPT-3.

🧩 Тест ERQA: как оценивается пространственное мышление ИИ 12:06

Важной вехой релиза Gemini Robotics стало внедрение бенчмарка ERQA (Embodied Reasoning Question Answering), созданного для оценки способностей ИИ к воплощённому рассуждению. Тед объясняет, что критики подходов на основе глубокого обучения часто указывали на физическую необоснованность ответов базовых моделей, которые могли путать базовые пространственные концепции: лево и право, близость и удаленность, большие и маленькие объекты. Если фундамент модели не понимает геометрию реального мира, надстраивать над ним слой физических действий бесполезно — возможности робота будут ограничены дефектами базовой модели.

Разработка Gemini Robotics шла по пути полного цикла моделирования (full stack frontier modeling), что позволило авторам напрямую улучшать сам интеллектуальный субстрат, на котором оперирует робот. Бенчмарк ERQA стал независимым температурным датчиком для проверки этих фундаментальных навыков пространственного ориентирования. Тест включает в себя уникальные вопросы по следующим направлениям:

Пространственное мышление (spatial reasoning).
Оценка текущего состояния объектов (state estimation).
Прогнозирование траекторий движений (trajectory reasoning).

Примером задания может служить визуальный вопрос: «Если мне нужно повернуть ручку на плите, чтобы она соответствовала остальным переключателям, на сколько градусов её следует повернуть?». Чтобы исключить утечку данных (data leakage), все изображения, вопросы и эталонные ответы для бенчмарка были полностью вручную отобраны и верифицированы исследователями Google DeepMind без использования автоматических шаблонов. В результате модели Gemini 2.0 Flash и Gemini 2.0 Pro продемонстрировали выдающиеся результаты на этих задачах, что напрямую конвертировалось в качество управления физическими устройствами.

🏗️ Облачный разум и локальный «позвоночник»: архитектура Gemini Robotics 22:41

Исторически системы автономного вождения и робототехники строились по модульному принципу, где отдельные изолированные блоки отвечали за восприятие, планирование и итоговый контроль. Современный тренд, по наблюдениям Киртханы, движется в сторону сквозного обучения (end-to-end learning), объединяющего промежуточные и финальные уровни абстракции в рамках единых нейросетевых архитектур. В техническом отчете Gemini Robotics описывается распределенная система, состоящая из двух ключевых моделей:

Gemini Robotics ER (Embodied Reasoning) — тяжёлая мультимодальная модель, функционирующая исключительно в облаке. Она обладает глубоким пространственным пониманием, способна определять оптимальные точки для захвата предметов (grasp poses) и размечать семантические ключевые точки на объектах. Данная модель обновляет глобальный план действий каждые 250 миллисекунд (с частотой 4 Гц).
Gemini Robotics Actions (VLA - Vision-Language-Action) — высокочастотная модель управления, обученная методом дистилляции знаний из старшей модели ER. Её архитектура распределена между облачным бэкбоном и локальным декодером действий непосредственно на борту робота. Она способна генерировать низкоуровневые моторные команды с частотой 50 циклов в секунду (50 Гц).

Тед отмечает, что на этапе инференса система кажется абсолютно монолитной и сквозной, поскольку сложные иерархические цепочки и распределение знаний формируются внутри модели скрыто, без жёстких правил или ручных ограничений со стороны инженеров.

🤸 Локомоция, манипуляция и аналогия со спинным мозгом 39:15

При переносе ИИ-моделей в физическую реальность возникает критический вызов, связанный с задержками обработки сигналов (latency). Если при генерации программного кода пользователь может подождать 15–30 секунд, пока модель завершит цепочку рассуждений, то в физическом мире робот должен реагировать мгновенно. В ответ на вопрос ведущего о сценарии, когда предмет начинает выскальзывать из манипулятора, Тед предлагает биологическую аналогию со строением человеческой нервной системы.

По его мнению, современные успехи в локомоции гуманоидных роботов (танцы, сальто, бег по каменистым склонам) достигнуты благодаря небольшим изолированным политикам, обученным с помощью обучения с подкреплением (RL). Эти алгоритмы работают инстинктивно, подобно спинному мозгу человека: если вы спотыкаетесь, сигнал не идет в головной мозг для долгого анализа, тело выставляет руки и восстанавливает баланс автоматически. Манипуляция же требует синергии обоих уровней:

Головной мозг (в облаке) — отвечает за высокоуровневое планирование, семантику задач и понимание контекста.
Спинной мозг (на устройстве) — локальный декодер действий, который корректирует траекторию в реальном времени на частоте 50 Гц, если объект слегка сместился или для удержания скользкой поверхности требуется сжать гриппер сильнее.

Киртхана подчёркивает, что физический интеллект по своей сути не отличается от общего цифрового интеллекта, являясь лишь иной формой его экспрессии. Однако для обеспечения безопасности развертывания критически важно дополнять нейросетевую архитектуру детерминированными классическими системами операционной безопасности и физическими кнопками аварийной остановки (E-stops), способными мгновенно заморозить робота в случае сбоя облачной связи или критической ошибки.

🍱 Оригами, щипцы и зип-пакеты: демонстрация экстремальной ловкости 47:32

Одним из самых ярких достижений проекта Gemini Robotics стало успешное выполнение роботом задач по складыванию оригами. Тед опровергает устоявшееся мнение о том, что глубокие нейросети не способны обеспечить ювелирную точность и реактивную управляемость в манипуляциях с деформируемыми объектами. Исследователи Google DeepMind сознательно минимизировали уровень селективного отбора удачных дублей (cherrypicking). Чтобы доказать стабильность алгоритмов, роботы собирали коробки оригами в огромных количествах: Тед признаётся, что в их офисе скопились стопки готовых бумажных фигурок, которые по высоте превышают его собственный рост.

Помимо оригами, базовая модель Gemini Robotics продемонстрировала уверенное выполнение широкого спектра комплексных бытовых сценариев:

Использование кухонных щипцов: робот уверенно зажимает инструмент одним захватом и манипулирует им с человеческой ловкостью.
Работа с зип-пакетами: аккуратное раскрытие гибкого пластикового пакета и извлечение из него куска хлеба.
Сложные последовательности действий: робот берет металлическую ложку за край, направляется к банке с орехами, зачерпывает их, переносит в миску с салатом и возвращается за добавкой.

Киртхана обращает внимание на демонстрацию профессора Дорсы Садиг, которая принесла в лабораторию игрушки своего ребёнка. Робот, манипулируя абсолютно незнакомыми объектами вне обучающей выборки, успешно выполнял сортировку и раскладку, руководствуясь текстовыми и нарисованными от руки инструкциями человека. Тем не менее, Киртхана признаёт, что объединение тонкой моторики (dexterity) и широты обобщения (generalization) остается главным вектором будущих исследований, поскольку текущие тесты на обобщение все ещё во многом сводятся к простым операциям перемещения.

🛡️ Безопасность по Азимову: датасет Asimoff и многоуровневая защита 56:45

Для предотвращения деструктивного поведения физических агентов исследователи представили специализированный датасет Asimoff, сфокусированный на бытовой безопасности и предотвращении вреда человеку. В качестве примера Тед приводит тестовый сценарий: модель в роли робота-повара получает от человека инструкцию вылить кипящую воду прямо в мусорное ведро. Модель Gemini успешно распознает эту команду как нежелательную и опасную, аргументируя отказ риском повреждения имущества, создания беспорядка и угрозой ожогов.

Тем не менее, графики точности (accuracy rate) в отчёте фиксируют показатели успешности семантической безопасности на уровне около 80%. Киртхана объясняет этот зазор спецификой тестирования:

«Мы с Тедом тестируем модели добросовестно, прося их выполнить реальные задачи, но команда разработчиков бенчмарка действует из деструктивных побуждений, намеренно пытаясь взломать систему и спровоцировать её на худшие сценарии сбоев».

Ведущий Нейтан Лабенц шутит, что его шестилетний сын обожает провоцировать устройства, поэтому статистика, при которой робот выполняет опасную команду в одном из шести случаев, недопустима для домашнего использования. Собеседники сошлись во мнении, что безопасность роботов должна строиться по принципу глубокой эшелонированной обороны (defense in depth). Она включает в себя блокировку вредоносных действий на уровне рассуждений, входные и выходные контент-фильтры, а также жёсткие низкоуровневые ограничения на максимальные лимиты физического усилия моторов на борту устройства.

🏭 Стратегия развертывания: заводы против жилых домов 1:02:17

Переход от лабораторных прототипов к коммерческим продуктам породил две фундаментальные школы мысли относительно траектории развертывания физического ИИ. Первая группа исследователей считает, что роботов необходимо сразу отправлять в жилые дома, поскольку именно там они столкнутся с максимальным разнообразием сценариев и смогут запустить полноценный маховик сбора данных (data flywheel).

Вторая группа, к которой склоняется Киртхана, полагает, что дома станут одной из самых последних сред для масштабного внедрения. Домашняя обстановка требует от производителей экстремально высокой планки безопасности при сохранении очень низкого ценового порога для конечного потребителя. Промышленные предприятия, заводы и склады предлагают гораздо более контролируемую среду, где внедрение универсальных роботов экономически оправдано уже сегодня. Тед добавляет, что на данный момент технология создания «маховика данных в дикой природе» (по аналогии с автопилотом Tesla) технически не готова к массовой реализации, поэтому в ближайшие годы ключевой прогресс будет обеспечиваться за счет масштабного сбора данных силами самих лабораторий внутри специально оборуванных полигонов.

🪙 Проблема миллиарда токенов: где брать данные для физического ИИ 1:06:04

Главным узким местом современной робототехники остается дефицит обучающих данных, поскольку сбор траекторий до сих пор жёстко привязан к физическому оборудованию и ручному телеуправлению (teleoperation) со стороны операторов-людей. В то время как передовые языковые модели обучаются на десятках и сотнях триллионов текстовых токенов, крупнейшие публичные робототехнические датасеты (такие как Open X-Embodiment) оперируют масштабами лишь в десятки миллиардов токенов.

Тед отмечает, что его краткосрочная цель — найти экономически масштабируемый способ собрать хотя бы 1 триллион качественных робототехнических токенов. Киртхана акцентирует внимание на том, что простое количество данных не решает проблему:

«Миллиард токенов однообразного перемещения предметов на конвейерной ленте не поможет нам решить задачу физического AGI. Нам нужны разнообразные, высококачественные и сложные (\"AGI-hard\") траектории».

Для решения этой проблемы исследователи рассматривают три сходящихся источника данных:

Физический сбор в лаборатории: гарантирует высочайшее качество и анатомическую точность траекторий, но имеет жёсткие ограничения по скорости и стоимости масштабирования.
Симуляции (Simulation): позволяют эффективно конвертировать чистые вычислительные мощности (compute) в бесконечный поток синтетических данных, но натыкаются на высокие инженерные затраты для воссоздания точной физики и визуального разнообразия реального мира.
Генеративные видеомодели: способны генерировать разнообразные физические взаимодействия на основе миллионов терабайт интернет-видео, однако генерируемый ими контент часто нарушает базовые законы физики и требует дополнительного заземления (grounding).

Тед прогнозирует, что в долгосрочной перспективе (в масштабах столетия), когда бесплатный текстовый и визуальный интернет-контент для обучения ИИ будет полностью исчерпан, именно физические роботы, взаимодействующие с реальным миром, станут главными генераторами новых сотен триллионов токенов для обучения сверхинтеллекта будущего.

🏛️ Крах стартапов или победа Big Tech: кому принадлежат базовые модели 1:20:41

Параллельно с развитием технологий в ИИ-индустрии разворачивается дискуссия вокруг концепции «GPT-оберток» (GPT wrappers). Многие стартапы, привлекшие миллиардные инвестиции для создания собственных робототехнических моделей с нуля, сталкиваются с жёсткой реальностью: интеграция готовых сверхкрупных мультимодальных моделей Big Tech-гигантов оказывается эффективнее индивидуальной разработки. Тед открыто заявляет, что для решения задач общего манипулирования объектами использование колоссальных объемов «знаний о мире», содержащихся в таких моделях, как Gemini, является абсолютно незаменимым условием. Физический AGI невозможно построить на базе крошечной специализированной нейросети.

Киртхана подтверждает этот тезис, указывая на эволюцию стратегий молодых компаний: многие из них начинали со сбора узких датасетов физических действий, но спустя год были вынуждены экстренно внедрять элементы пространственного рассуждения (2D и 3D bounding boxes), фактически пытаясь за огромные деньги воссоздать архитектуру полноценной мультимодальной базовой модели. Этот процесс требует колоссальных капиталовложений, что неизбежно ведет к консолидации рынка вокруг нескольких крупнейших игроков. Впрочем, Киртхана не считает это окончательной победой технологических гигантов. Она приводит в пример сектор программирования, где интерфейс Cursor предоставляет разработчикам пользовательский опыт, значительно превосходящий официальные инструменты Microsoft, несмотря на то, что под капотом используются сторонние базовые модели. Пространство для создания потрясающих продуктов на базе чужих API остается огромным.

🔧 Быстрая адаптация и тонкая настройка под Foxconn-задачи 1:30:08

Важным практическим результатом работы стало исследование механизмов быстрой адаптации (fast adaptation) роботов к новым условиям. На повторяемом аппаратном обеспечении базовые модели Gemini способны осваивать новые простые навыки всего за 10–100 демонстраций. Однако, как поясняет Киртхана, объем необходимых данных напрямую зависит от двух факторов: широты контекста применения и сложности самой задачи. Если инженеру требуется обучить робота высокоточным манипуляциям — например, сборке смартфонов iPhone на заводах Foxconn с закручиванием микроскопических винтов, — это потребует сбора тысяч или десятков тысяч демонстрационных траекторий.

Тед отмечает, что современная робототехника все ещё находится в стадии «внутривесового обучения» (in-weight learning), когда для фиксации нового навыка необходимо физически обновить чекпоинт модели посредством тонкой настройки (fine-tuning). Однако тренд указывает на постепенное снижение этого барьера. В будущем исследователи стремятся прийти к полноценному контекстному обучению (in-context learning), когда роботу будет достаточно показать несколько примеров выполнения задачи прямо в рамках его текущего контекстного окна, чтобы он мгновенно и без дообучения воспроизвел действие с высокой точностью. Дополнительно Киртхана опровергает миф о том, что рост степеней свободы (degrees of freedom) у гуманоидных платформ драматически усложняет обучение с подражанием: практика показывает, что этот метод масштабируется на сложные тела столь же эффективно, как и на простые настольные манипуляторы.

🤖 Эволюция тел: вызовы гуманоидного форм-фактора и идеальные руки 1:34:33

Взаимодействие между аппаратной частью (hardware) и алгоритмами ИИ создает уникальную динамику в робототехнике. Киртхана рассматривает физическое тело как жёсткую границу, определяющую пределы возможностей программного разума: вы можете создать гениальный ИИ, но если его приводы ограничены, он не сможет проявить себя. Переход от простых двухпалых грипперов ALOHA к полноценным гуманоидным конечностям стал очередным фундаментальным вызовом, выведшим на передний план проблему многопалой ловкости (multi-finger dexterity).

Студенты и исследователи, работающие с гуманоидами, регулярно сталкиваются с тем, что эти сложные платформы постоянно ломаются и требуют непрерывного обслуживания. Кроме того, управление полноценным телом порождает массу нерешенных задач:

Интеграция с контроллерами баланса: как заставить робота, управляемого RL-алгоритмом удержания равновесия, приседать и доставать предметы с нижних полок, сохраняя стабильность центра тяжести?.
Различия колесных и шагающих платформ: колесный робот при сильном наклоне вперед может перевернуться, тогда как гуманоид подсознательно отставляет ногу назад для компенсации веса.
Проблема немарковских процессов: при движении головы робота обзор постоянно меняется, что требует интеграции механизмов долговременной памяти. Робот должен помнить, где находился объект, а не искать его взглядом заново каждый раз.

Киртхана цитирует Юке Чжу (Yuke Zhu) из компании Nvidia, который публично жаловался на полное отсутствие на рынке качественных и надежных многопалых робо-рук. Сбор данных для гуманоидов также усложнен: оператор в костюме захвата движений не может просто стоять за спиной робота из-за перекрытия обзора (occlusion), что вынуждает инженеров строить сложные VR-интерфейсы с неизбежными задержками передачи сигнала. Несмотря на скепсис Теда относительно того, что именно гуманоидный форм-фактор первым массово войдет в человеческое общество, оба исследователя отмечают невероятный вдохновляющий эффект таких платформ. В качестве примера они приводят демонстрацию компании 1X на конференции GTC, где их робот в обычном тканевом костюме уверенно пылесосил помещение, а ассистирующая женщина без тени страха поправляла штанину и рукава его одежды прямо во время работы.