Основатели Physical Intelligence: «Мы строим мозг, способный управлять любым роботом»

TBPN 1,7 тыс. 30 мин 4 мин 26.04.2025
Главное

В современной гонке вооружений искусственного интеллекта физическое воплощение алгоритмов становится новым «святым Граалем». Пока чат-боты соревнуются в написании эссе, компания Physical Intelligence (PI) ставит перед собой амбициозную цель: создать «мозг», способный управлять любым роботом для выполнения любой задачи в физическом мире.

В студии TBPN сооснователи Physical Intelligence — Кароль Хаусман (экс-Google DeepMind) и Лаки Грум (экс-Stripe) — подробно рассказали о том, почему классическое программирование роботов зашло в тупик, как их новая модель π0 (pi-zero) справляется с уборкой в незнакомых домах и почему главная битва за общее ИИ-будущее ведется не против конкурентов, а против самой науки.

🤖 От классического кода к «концевому» обучению 1:07

Долгое время основной преградой в робототехнике была не ловкость движений или механика, а способность к обобщению — генерализации . Кароль Хаусман объясняет, что традиционный подход, основанный на жестко прописанных алгоритмах и условиях (if-statements), не выдерживает столкновения с реальностью .

Ключевые тезисы Хаусмана об архитектуре обучения:

🏠 Прорыв π0: Уборка в незнакомом доме 1:32

Недавний анонс модели π0 (pi-zero) стал важной вехой для компании. Инженеры поставили перед роботом задачу: прийти в абсолютно новый дом, который он никогда не видел, и выполнить сложную задачу с длинным горизонтом планирования, например, убрать спальню или кухню .

Сложность этой задачи часто недооценивается людьми:

  1. Навигация в хаосе: Робот не знает, где лежат губки, как открываются ящики и как выглядят конкретные столешницы в этом доме .
  2. Результативность: На текущем этапе модель справляется в новых условиях в 50–80% случаев . Это огромный скачок по сравнению с предыдущими системами, которые требовали сбора данных именно в том месте, где планировалась демонстрация .
  3. Порог надежности: Лаки Грум отмечает, что для выхода на потребительский рынок надежность должна составлять 98–99% . До этого момента ценность технологии будет концентрироваться в коммерческом и промышленном секторах.

📊 Проблема данных: Интернет против реальности 5:25

Обучение роботов радикально отличается от обучения GPT. У разработчиков нет «открытого интернета», полного видеоинструкций по каждому физическому движению с обратной связью.

Хаусман выделяет два типа данных, используемых PI:

Разработчики скептически относятся к симуляциям для манипуляций. В то время как локомоция (ходьба) успешно тренируется в цифре, имитация взаимодействия с мягкими или мелкими предметами (например, одеждой) требует слишком сложных физических расчетов . Стратегия Physical Intelligence — идти «в лоб», собирая данные в реальном мире.

🏢 Культура Stripe и наследие Google «Arm Farm» 12:39

Основатели принесли в стартап опыт двух гигантов индустрии. Кароль Хаусман ранее работал над легендарным проектом Google «Arm Farm» (Ферма манипуляторов) .

🔮 Будущее: От складывания белья до AGI 21:42

Разговор зашел и о масштабных амбициях. Несмотря на то что робототехника сейчас находится на этапе R&D, сооснователи видят четкий путь развития.

Physical Intelligence позиционирует себя не просто как производителя железа, а как создателя универсального «мозга». Их девиз звучит как предложение рынку: «Вы строите тело, мы строим интеллект» .

💬 Цитаты

«Наш самый большой конкурент — это наука. Возможно, мы не сможем решить эту проблему даже при нашей жизни, но сейчас это выглядит все более вероятным.»

Лаки Грум 29:10

«Роботизированные действия — это просто еще один язык, на котором эти модели могут научиться говорить.»

Кароль Хаусман 26:22
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
End-to-end learning
Метод обучения ИИ, при котором модель учится преобразовывать входные данные (например, изображение с камеры) сразу в итоговый результат (движение руки) без промежуточных этапов.
Generalization (Генерализация)
Способность модели применять полученные знания в новых, ранее не встречавшихся ситуациях или окружениях.
Teleoperation (Телеуправление)
Управление движением робота человеком-оператором в режиме реального времени, часто используется для сбора обучающих данных.
📊 Цифры
🗓 Хронология
  1. Недавно Выпуск модели π0, способной к базовому обобщению действий в новых пространствах.
  2. В прошлом Работа Кароля Хаусмана в Google DeepMind над проектом «Arm Farm» по сбору данных манипуляций.
⚖️ Другая сторона
Искусственный интеллект Physical Intelligence π0 model Karol Hausman Lachy Groom end-to-end learning