Эра физического ИИ: как Boston Dynamics и Google DeepMind создают универсального робота-рабочего

В рамках конференции Google for Developers эксперты обсудили наступление новой эры — эры «физического ИИ». В дискуссии приняли участие Аниша Кенджиро, возглавляющий робототехнику в Google DeepMind, и Альберто Родригес, руководитель отдела поведения роботов в Boston Dynamics. Речь шла о том, как большие языковые модели и трансформеры перекочевали из цифрового мира в физический, почему научить робота танцевать легче, чем заставить его почистить яйцо, и когда в наших домах появятся универсальные помощники.

🤖 Революция физического интеллекта: из цифры в реальность 0:44

Долгое время прорывы в области искусственного интеллекта ограничивались цифровой средой: текстами, кодом и изображениями. Однако, по словам Аниши Кенджиро, последние несколько лет стали поворотными для робототехники именно благодаря интеграции достижений «общего ИИ» (General AI) в физические носители .

Ключевым изменением стал переход от узкоспециализированных роботов (например, манипуляторов на заводах) к моделям с общим пониманием мира. Кенджиро отмечает: чтобы робот был полезен человеку, он должен понимать человеческую среду, и это понимание обеспечивают мультимодальные фронтирные модели .

Основные вехи этого перехода:

Добавление «действия» как модальности: К существующим визуальным и языковым данным разработчики добавили «физические токены». Это позволило создать модели VLA (Vision-Language-Action).
Эффект «Zero-shot»: В одном из экспериментов роботу, который никогда не видел игрушечных динозавров в обучающей выборке, дали команду «подними вымершее животное». Робот безошибочно выбрал динозавра среди других игрушек . Это доказывает, что робототехника начала «ехать на волне» общего цифрового интеллекта.

🤝 Партнёрство гигантов: Мозги Google и Тело Boston Dynamics 2:02

Boston Dynamics и Google DeepMind объединили усилия, чтобы создать «команду мечты» для разработки универсального робота-рабочего . Альберто Родригес объясняет философию этого союза через аналогию с развитием ребенка.

По мнению Родригеса, обучение робота (как и ребенка) проходит две стадии:

Физический интеллект (6–9 месяцев): Постижение баланса, умение прилагать силу, понимание того, как не упасть и не опрокинуть предмет .
Здравый смысл и «аффорданс» (1.5 года): Понимание предназначения предметов. Например, ребенок осознает, что стул — это место для сидения, имеющее направление. Если стул стоит задом наперед, его нужно развернуть .

Партнерство позволяет совместить превосходное оборудование (Hardware) от Boston Dynamics и продвинутые модели рассуждений (Reasoning) от Google. Родригес подчеркивает: невозможно научить робота рассуждать о мире, если он не владеет своим телом на базовом уровне .

🚶 Почему именно гуманоид? Преимущества формы Atlas 5:33

Выбор человекоподобной формы для робота Atlas — это не только маркетинговый ход, но и инженерная необходимость. Родригес и Кенджиро выделяют несколько причин:

Масштабирование данных: Легче всего собирать данные для обучения, наблюдая за людьми. Гуманоидная форма позволяет напрямую переносить человеческий опыт в модель .
Две руки против одной: Две конечности позволяют перераспределять нагрузку и манипулировать объектами гораздо эффективнее (например, перехватывать предмет) .
Проходимость и адаптивность: Ноги позволяют не только преодолевать ступени, но и динамично менять площадь опоры для изменения трения и ускорения .

Новое поколение Atlas разработано с прицелом на массовое производство. Оно проще по конструкции, надежнее и готово к масштабному сбору данных в реальном мире . В представленном видео робот Atlas демонстрирует свою мощь, перенося холодильник (хотя в шутку предполагалось, что он несет газировку), что подчеркивает его готовность к тяжелому физическому труду .

🧠 Обучение: от симуляции к «думающим» токенам 9:12

Сегодня существует два основных пути обучения роботов, о которых рассказал Аниша Кенджиро:

Симуляция и обучение с подкреплением (RL): Идеально подходит для базовых навыков — ходьбы, бега, танцев. В виртуальной среде робот может совершать миллионы попыток без риска сломать оборудование .
Реальный мир и телеоперации: Для сложных манипуляций (ловкости рук) симуляции недостаточно. Операторы в VR-шлемах управляют роботами («телеоперация»), передавая им свой воплощенный опыт . Робот видит мир глазами пилота и учится физике через прямое взаимодействие.

Прорыв Gemini Robotics: Google представил модель, которая вводит «мышление» в физические действия. Между визуальными данными и движением робот генерирует «мыслительные токены». В видео с сортировкой белья робот комментирует свои действия: «Нужно поправить корзину, чтобы поднять ткань» . Это делает поведение машины адаптивным: если человек помешает роботу, тот пересмотрит свой план в реальном времени, а не просто продолжит выполнять заученную программу .

🖐️ Парадокс Моравека: Почему оригами — это легко, а ключи в кармане — нет 15:26

Собеседники сошлись во мнении, что «красивые видео с танцующими роботами» сегодня впечатляют меньше, чем робот, аккуратно берущий банан. Ловкость рук (dexterity) остается «финальной главой» робототехники .

Кенджиро отмечает удивительный парадокс: современный ИИ может за 24 часа написать операционную систему или решить сложнейшую математическую задачу, но до сих пор не может уверенно разбить яйцо или застегнуть молнию .

Проблема осязания: Большинство современных роботов полагаются на зрение. Однако человек выполняет 90% манипуляций, используя тактильную обратную связь (чувство силы и прикосновения).

Эксперимент с оригами: Google показал робота, который складывает оригами, используя только камеры на запястьях . Он буквально «вычисляет» силу нажатия по деформации бумаги в пикселях.
Гипотеза Родригеса: Мы застряли на видео-данных, потому что их в избытке в интернете. Тактильных данных почти нет. Как только появятся надежные сенсоры («кожа» для робота), произойдет переход от визуального контроля к высокочастотному тактильному управлению .

📅 Будущее: Когда робот появится в каждом доме? 22:47

На вопрос о том, когда домашние роботы станут реальностью, эксперты дали осторожный прогноз: в ближайшие 5–10 лет .

Основные препятствия:

Отсутствие универсальности: Робот может научиться открывать одну конкретную бутылку, но ему трудно перенести этот навык («глагол» откручивания) на все предметы в мире .
Безопасность: Домашняя среда гораздо сложнее и опаснее заводской. Роботы не станут массовыми, пока проблема безопасности не будет решена на уровне автономного вождения .

Текущие успехи и дорожная карта: Сегодня роботы уже отлично справляются с:

Удержанием баланса (проблема решена) .
Базовыми операциями «взял—положил».
Работой в специфических условиях (например, робот Stretch от Boston Dynamics разгружает коробки весом по 25–30 кг в жарких грузовиках, где человеку работать физически тяжело) .

Первым рынком для гуманоидов останется тяжелая промышленность и логистика — там, где задачи монотонны, опасны или требуют большой физической силы (Arduous labor) . Только пройдя школу заводов, роботы смогут безопасно войти в наши дома, чтобы избавить человечество от скучной домашней рутины.