Эра физического ИИ: как Boston Dynamics и Google DeepMind создают универсального робота-рабочего

Google for Developers 2,7 тыс. 38 мин 5 мин 21.05.2026
Главное

В рамках конференции Google for Developers эксперты обсудили наступление новой эры — эры «физического ИИ». В дискуссии приняли участие Аниша Кенджиро, возглавляющий робототехнику в Google DeepMind, и Альберто Родригес, руководитель отдела поведения роботов в Boston Dynamics. Речь шла о том, как большие языковые модели и трансформеры перекочевали из цифрового мира в физический, почему научить робота танцевать легче, чем заставить его почистить яйцо, и когда в наших домах появятся универсальные помощники.

🤖 Революция физического интеллекта: из цифры в реальность 0:44

Долгое время прорывы в области искусственного интеллекта ограничивались цифровой средой: текстами, кодом и изображениями. Однако, по словам Аниши Кенджиро, последние несколько лет стали поворотными для робототехники именно благодаря интеграции достижений «общего ИИ» (General AI) в физические носители .

Ключевым изменением стал переход от узкоспециализированных роботов (например, манипуляторов на заводах) к моделям с общим пониманием мира. Кенджиро отмечает: чтобы робот был полезен человеку, он должен понимать человеческую среду, и это понимание обеспечивают мультимодальные фронтирные модели .

Основные вехи этого перехода:

🤝 Партнёрство гигантов: Мозги Google и Тело Boston Dynamics 2:02

Boston Dynamics и Google DeepMind объединили усилия, чтобы создать «команду мечты» для разработки универсального робота-рабочего . Альберто Родригес объясняет философию этого союза через аналогию с развитием ребенка.

По мнению Родригеса, обучение робота (как и ребенка) проходит две стадии:

  1. Физический интеллект (6–9 месяцев): Постижение баланса, умение прилагать силу, понимание того, как не упасть и не опрокинуть предмет .
  2. Здравый смысл и «аффорданс» (1.5 года): Понимание предназначения предметов. Например, ребенок осознает, что стул — это место для сидения, имеющее направление. Если стул стоит задом наперед, его нужно развернуть .

Партнерство позволяет совместить превосходное оборудование (Hardware) от Boston Dynamics и продвинутые модели рассуждений (Reasoning) от Google. Родригес подчеркивает: невозможно научить робота рассуждать о мире, если он не владеет своим телом на базовом уровне .

🚶 Почему именно гуманоид? Преимущества формы Atlas 5:33

Выбор человекоподобной формы для робота Atlas — это не только маркетинговый ход, но и инженерная необходимость. Родригес и Кенджиро выделяют несколько причин:

Новое поколение Atlas разработано с прицелом на массовое производство. Оно проще по конструкции, надежнее и готово к масштабному сбору данных в реальном мире . В представленном видео робот Atlas демонстрирует свою мощь, перенося холодильник (хотя в шутку предполагалось, что он несет газировку), что подчеркивает его готовность к тяжелому физическому труду .

🧠 Обучение: от симуляции к «думающим» токенам 9:12

Сегодня существует два основных пути обучения роботов, о которых рассказал Аниша Кенджиро:

  1. Симуляция и обучение с подкреплением (RL): Идеально подходит для базовых навыков — ходьбы, бега, танцев. В виртуальной среде робот может совершать миллионы попыток без риска сломать оборудование .
  2. Реальный мир и телеоперации: Для сложных манипуляций (ловкости рук) симуляции недостаточно. Операторы в VR-шлемах управляют роботами («телеоперация»), передавая им свой воплощенный опыт . Робот видит мир глазами пилота и учится физике через прямое взаимодействие.

Прорыв Gemini Robotics: Google представил модель, которая вводит «мышление» в физические действия. Между визуальными данными и движением робот генерирует «мыслительные токены». В видео с сортировкой белья робот комментирует свои действия: «Нужно поправить корзину, чтобы поднять ткань» . Это делает поведение машины адаптивным: если человек помешает роботу, тот пересмотрит свой план в реальном времени, а не просто продолжит выполнять заученную программу .

🖐️ Парадокс Моравека: Почему оригами — это легко, а ключи в кармане — нет 15:26

Собеседники сошлись во мнении, что «красивые видео с танцующими роботами» сегодня впечатляют меньше, чем робот, аккуратно берущий банан. Ловкость рук (dexterity) остается «финальной главой» робототехники .

Кенджиро отмечает удивительный парадокс: современный ИИ может за 24 часа написать операционную систему или решить сложнейшую математическую задачу, но до сих пор не может уверенно разбить яйцо или застегнуть молнию .

Проблема осязания: Большинство современных роботов полагаются на зрение. Однако человек выполняет 90% манипуляций, используя тактильную обратную связь (чувство силы и прикосновения).

📅 Будущее: Когда робот появится в каждом доме? 22:47

На вопрос о том, когда домашние роботы станут реальностью, эксперты дали осторожный прогноз: в ближайшие 5–10 лет .

Основные препятствия:

Текущие успехи и дорожная карта: Сегодня роботы уже отлично справляются с:

Первым рынком для гуманоидов останется тяжелая промышленность и логистика — там, где задачи монотонны, опасны или требуют большой физической силы (Arduous labor) . Только пройдя школу заводов, роботы смогут безопасно войти в наши дома, чтобы избавить человечество от скучной домашней рутины.


💬 Цитаты

«Мы можем написать операционную систему за 24 часа и решать сложную математику, но мы до сих пор не можем научить робота пожарить яичницу.»

Аниша Кенджиро 16:04

«Балансировка — это решенная проблема. Теперь гуманоиды стали реальностью.»

Аниша Кенджиро 24:30
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
VLA (Vision-Language-Action)
Мультимодальные модели, которые объединяют визуальное восприятие, понимание языка и выдачу физических команд (действий).
Телеоперация
Дистанционное управление роботом человеком (часто в VR), используемое для сбора данных о движениях.
Аффорданс
Свойство объекта, которое подсказывает, как с ним можно взаимодействовать (например, ручка двери предназначена для того, чтобы за неё тянули).
Zero-shot
Способность модели выполнять задачу, которой она не обучалась специально, на основе общих знаний.
📊 Цифры
🗓 Хронология
  1. 6–9 месяцев Этап развития ребенка (и робота), когда осваивается баланс и управление телом.
  2. 1.5 года Этап развития, на котором появляется понимание здравого смысла и предназначения предметов.
  3. 2024 Выход нового поколения полностью электрического гуманоидного робота Atlas.
⚖️ Другая сторона
Искусственный интеллект Boston Dynamics Google DeepMind робототехника гуманоидный робот Atlas физический ИИ