# Эра физического ИИ: как Boston Dynamics и Google DeepMind создают универсального робота-рабочего

Источник: https://www.youtube.com/watch?v=jn3iypY-cN4
Канал: Google for Developers
Опубликовано: 21.05.2026

---

В рамках конференции Google for Developers эксперты обсудили наступление новой эры — эры «физического ИИ». В дискуссии приняли участие Аниша Кенджиро, возглавляющий робототехнику в Google DeepMind, и Альберто Родригес, руководитель отдела поведения роботов в Boston Dynamics. Речь шла о том, как большие языковые модели и трансформеры перекочевали из цифрового мира в физический, почему научить робота танцевать легче, чем заставить его почистить яйцо, и когда в наших домах появятся универсальные помощники.

## 🤖 Революция физического интеллекта: из цифры в реальность
[[JUMP:00:44]]

Долгое время прорывы в области искусственного интеллекта ограничивались цифровой средой: текстами, кодом и изображениями. Однако, по словам Аниши Кенджиро, последние несколько лет стали поворотными для робототехники именно благодаря интеграции достижений «общего ИИ» (General AI) в физические носители [00:44]. 

Ключевым изменением стал переход от узкоспециализированных роботов (например, манипуляторов на заводах) к моделям с общим пониманием мира. Кенджиро отмечает: чтобы робот был полезен человеку, он должен понимать человеческую среду, и это понимание обеспечивают мультимодальные фронтирные модели [01:10]. 

Основные вехи этого перехода:

*   **Добавление «действия» как модальности:** К существующим визуальным и языковым данным разработчики добавили «физические токены». Это позволило создать модели VLA (Vision-Language-Action).
*   **Эффект «Zero-shot»:** В одном из экспериментов роботу, который никогда не видел игрушечных динозавров в обучающей выборке, дали команду «подними вымершее животное». Робот безошибочно выбрал динозавра среди других игрушек [01:38]. Это доказывает, что робототехника начала «ехать на волне» общего цифрового интеллекта.

## 🤝 Партнёрство гигантов: Мозги Google и Тело Boston Dynamics
[[JUMP:02:02]]

Boston Dynamics и Google DeepMind объединили усилия, чтобы создать «команду мечты» для разработки универсального робота-рабочего [05:20]. Альберто Родригес объясняет философию этого союза через аналогию с развитием ребенка.

По мнению Родригеса, обучение робота (как и ребенка) проходит две стадии:

1.  **Физический интеллект (6–9 месяцев):** Постижение баланса, умение прилагать силу, понимание того, как не упасть и не опрокинуть предмет [03:07].
2.  **Здравый смысл и «аффорданс» (1.5 года):** Понимание предназначения предметов. Например, ребенок осознает, что стул — это место для сидения, имеющее направление. Если стул стоит задом наперед, его нужно развернуть [03:59].

Партнерство позволяет совместить превосходное оборудование (Hardware) от Boston Dynamics и продвинутые модели рассуждений (Reasoning) от Google. Родригес подчеркивает: невозможно научить робота рассуждать о мире, если он не владеет своим телом на базовом уровне [04:52].

## 🚶 Почему именно гуманоид? Преимущества формы Atlas
[[JUMP:05:33]]

Выбор человекоподобной формы для робота Atlas — это не только маркетинговый ход, но и инженерная необходимость. Родригес и Кенджиро выделяют несколько причин:

*   **Масштабирование данных:** Легче всего собирать данные для обучения, наблюдая за людьми. Гуманоидная форма позволяет напрямую переносить человеческий опыт в модель [06:12].
*   **Две руки против одной:** Две конечности позволяют перераспределять нагрузку и манипулировать объектами гораздо эффективнее (например, перехватывать предмет) [06:37].
*   **Проходимость и адаптивность:** Ноги позволяют не только преодолевать ступени, но и динамично менять площадь опоры для изменения трения и ускорения [07:05].

Новое поколение Atlas разработано с прицелом на массовое производство. Оно проще по конструкции, надежнее и готово к масштабному сбору данных в реальном мире [08:46]. В представленном видео робот Atlas демонстрирует свою мощь, перенося холодильник (хотя в шутку предполагалось, что он несет газировку), что подчеркивает его готовность к тяжелому физическому труду [07:57].

## 🧠 Обучение: от симуляции к «думающим» токенам
[[JUMP:09:12]]

Сегодня существует два основных пути обучения роботов, о которых рассказал Аниша Кенджиро:

1.  **Симуляция и обучение с подкреплением (RL):** Идеально подходит для базовых навыков — ходьбы, бега, танцев. В виртуальной среде робот может совершать миллионы попыток без риска сломать оборудование [10:02].
2.  **Реальный мир и телеоперации:** Для сложных манипуляций (ловкости рук) симуляции недостаточно. Операторы в VR-шлемах управляют роботами («телеоперация»), передавая им свой воплощенный опыт [11:45]. Робот видит мир глазами пилота и учится физике через прямое взаимодействие.

**Прорыв Gemini Robotics:**
Google представил модель, которая вводит «мышление» в физические действия. Между визуальными данными и движением робот генерирует «мыслительные токены». В видео с сортировкой белья робот комментирует свои действия: «Нужно поправить корзину, чтобы поднять ткань» [14:21]. Это делает поведение машины адаптивным: если человек помешает роботу, тот пересмотрит свой план в реальном времени, а не просто продолжит выполнять заученную программу [14:34].

## 🖐️ Парадокс Моравека: Почему оригами — это легко, а ключи в кармане — нет
[[JUMP:15:26]]

Собеседники сошлись во мнении, что «красивые видео с танцующими роботами» сегодня впечатляют меньше, чем робот, аккуратно берущий банан. Ловкость рук (dexterity) остается «финальной главой» робототехники [15:39].

Кенджиро отмечает удивительный парадокс: современный ИИ может за 24 часа написать операционную систему или решить сложнейшую математическую задачу, но до сих пор не может уверенно разбить яйцо или застегнуть молнию [16:04]. 

**Проблема осязания:**
Большинство современных роботов полагаются на зрение. Однако человек выполняет 90% манипуляций, используя тактильную обратную связь (чувство силы и прикосновения). 

*   **Эксперимент с оригами:** Google показал робота, который складывает оригами, используя *только* камеры на запястьях [19:48]. Он буквально «вычисляет» силу нажатия по деформации бумаги в пикселях.
*   **Гипотеза Родригеса:** Мы застряли на видео-данных, потому что их в избытке в интернете. Тактильных данных почти нет. Как только появятся надежные сенсоры («кожа» для робота), произойдет переход от визуального контроля к высокочастотному тактильному управлению [22:09].

## 📅 Будущее: Когда робот появится в каждом доме?
[[JUMP:22:47]]

На вопрос о том, когда домашние роботы станут реальностью, эксперты дали осторожный прогноз: **в ближайшие 5–10 лет** [22:47].

Основные препятствия:

*   **Отсутствие универсальности:** Робот может научиться открывать одну конкретную бутылку, но ему трудно перенести этот навык («глагол» откручивания) на все предметы в мире [23:14].
*   **Безопасность:** Домашняя среда гораздо сложнее и опаснее заводской. Роботы не станут массовыми, пока проблема безопасности не будет решена на уровне автономного вождения [34:13].

**Текущие успехи и дорожная карта:**
Сегодня роботы уже отлично справляются с:

*   Удержанием баланса (проблема решена) [24:30].
*   Базовыми операциями «взял—положил».
*   Работой в специфических условиях (например, робот Stretch от Boston Dynamics разгружает коробки весом по 25–30 кг в жарких грузовиках, где человеку работать физически тяжело) [35:18].

Первым рынком для гуманоидов останется тяжелая промышленность и логистика — там, где задачи монотонны, опасны или требуют большой физической силы (Arduous labor) [36:40]. Только пройдя школу заводов, роботы смогут безопасно войти в наши дома, чтобы избавить человечество от скучной домашней рутины.

---