Основатели Physical Intelligence: «Мы строим мозг, способный управлять любым роботом»

В современной гонке вооружений искусственного интеллекта физическое воплощение алгоритмов становится новым «святым Граалем». Пока чат-боты соревнуются в написании эссе, компания Physical Intelligence (PI) ставит перед собой амбициозную цель: создать «мозг», способный управлять любым роботом для выполнения любой задачи в физическом мире.

В студии TBPN сооснователи Physical Intelligence — Кароль Хаусман (экс-Google DeepMind) и Лаки Грум (экс-Stripe) — подробно рассказали о том, почему классическое программирование роботов зашло в тупик, как их новая модель π0 (pi-zero) справляется с уборкой в незнакомых домах и почему главная битва за общее ИИ-будущее ведется не против конкурентов, а против самой науки.

🤖 От классического кода к «концевому» обучению 1:07

Долгое время основной преградой в робототехнике была не ловкость движений или механика, а способность к обобщению — генерализации . Кароль Хаусман объясняет, что традиционный подход, основанный на жестко прописанных алгоритмах и условиях (if-statements), не выдерживает столкновения с реальностью .

Ключевые тезисы Хаусмана об архитектуре обучения:

End-to-end обучение: Все системы PI строятся на «концевом» обучении, где данные с камер поступают напрямую в нейросеть, которая выдает команды на актуаторы .
Отказ от детерминизма: Если бы можно было написать идеальный код на C++ для складывания белья, это было бы сделано десятки лет назад. Мир слишком сложен и непредсказуем для ручного описания всех переменных .
Аналогия с текстом: Подобно тому как LLM (языковые модели) находят паттерны в тексте, роботы должны учиться на опыте, находя закономерности в физическом взаимодействии, которые невозможно выразить словами .

🏠 Прорыв π0: Уборка в незнакомом доме 1:32

Недавний анонс модели π0 (pi-zero) стал важной вехой для компании. Инженеры поставили перед роботом задачу: прийти в абсолютно новый дом, который он никогда не видел, и выполнить сложную задачу с длинным горизонтом планирования, например, убрать спальню или кухню .

Сложность этой задачи часто недооценивается людьми:

Навигация в хаосе: Робот не знает, где лежат губки, как открываются ящики и как выглядят конкретные столешницы в этом доме .
Результативность: На текущем этапе модель справляется в новых условиях в 50–80% случаев . Это огромный скачок по сравнению с предыдущими системами, которые требовали сбора данных именно в том месте, где планировалась демонстрация .
Порог надежности: Лаки Грум отмечает, что для выхода на потребительский рынок надежность должна составлять 98–99% . До этого момента ценность технологии будет концентрироваться в коммерческом и промышленном секторах.

📊 Проблема данных: Интернет против реальности 5:25

Обучение роботов радикально отличается от обучения GPT. У разработчиков нет «открытого интернета», полного видеоинструкций по каждому физическому движению с обратной связью.

Хаусман выделяет два типа данных, используемых PI:

Разнородные источники: Модели обучаются на данных от мобильных манипуляторов в домах, статических роботов в офисах и даже на видео из интернета .
Физическое взаимодействие: Самые важные данные — это тактильное взаимодействие с объектами. Это «невыразимое знание», которое люди не могут описать словами, а симуляторы до сих пор не могут достоверно воспроизвести .

Разработчики скептически относятся к симуляциям для манипуляций. В то время как локомоция (ходьба) успешно тренируется в цифре, имитация взаимодействия с мягкими или мелкими предметами (например, одеждой) требует слишком сложных физических расчетов . Стратегия Physical Intelligence — идти «в лоб», собирая данные в реальном мире.

🏢 Культура Stripe и наследие Google «Arm Farm» 12:39

Основатели принесли в стартап опыт двух гигантов индустрии. Кароль Хаусман ранее работал над легендарным проектом Google «Arm Farm» (Ферма манипуляторов) .

Урок Google: «Ферма» доказала, что обучение на опыте работает лучше ручного кодинга, но процесс был мучительно долгим, так как роботы тратили тысячи часов на беспорядочные движения, прежде чем научиться просто брать предмет .
Урок Stripe: Лаки Грум перенес из финтеха принципы экстремальной сонаправленности (alignment) команды. В PI практически нет «налога на выравнивание» — сотрудники настолько мотивированы сами по себе, что их не нужно вдохновлять на работу над фундаментальными проблемами .

🔮 Будущее: От складывания белья до AGI 21:42

Разговор зашел и о масштабных амбициях. Несмотря на то что робототехника сейчас находится на этапе R&D, сооснователи видят четкий путь развития.

Роботы как источник данных: В будущем именно роботы могут стать основными поставщиками данных для LLM. Информация о реальном мире бесконечна, в отличие от текстов в сети, количество которых конечно .
Скепсис по поводу аналогий: Лаки Грум считает аналогию с беспилотными автомобилями (Tesla vs Waymo) полезной, но опасной. Робототехника может столкнуться с таким же 15-летним циклом разработки, прежде чем станет массовой .
Тест на AGI: На шутливый вопрос о «финальном боссе» для робота-повара, Хаусман ответил, что приготовление сложной лазаньи от Don Angie станет моментом достижения истинного общего интеллекта .

Physical Intelligence позиционирует себя не просто как производителя железа, а как создателя универсального «мозга». Их девиз звучит как предложение рынку: «Вы строите тело, мы строим интеллект» .