В современной гонке вооружений искусственного интеллекта физическое воплощение алгоритмов становится новым «святым Граалем». Пока чат-боты соревнуются в написании эссе, компания Physical Intelligence (PI) ставит перед собой амбициозную цель: создать «мозг», способный управлять любым роботом для выполнения любой задачи в физическом мире.
В студии TBPN сооснователи Physical Intelligence — Кароль Хаусман (экс-Google DeepMind) и Лаки Грум (экс-Stripe) — подробно рассказали о том, почему классическое программирование роботов зашло в тупик, как их новая модель π0 (pi-zero) справляется с уборкой в незнакомых домах и почему главная битва за общее ИИ-будущее ведется не против конкурентов, а против самой науки.
🤖 От классического кода к «концевому» обучению 1:07
Долгое время основной преградой в робототехнике была не ловкость движений или механика, а способность к обобщению — генерализации . Кароль Хаусман объясняет, что традиционный подход, основанный на жестко прописанных алгоритмах и условиях (if-statements), не выдерживает столкновения с реальностью .
Ключевые тезисы Хаусмана об архитектуре обучения:
- End-to-end обучение: Все системы PI строятся на «концевом» обучении, где данные с камер поступают напрямую в нейросеть, которая выдает команды на актуаторы .
- Отказ от детерминизма: Если бы можно было написать идеальный код на C++ для складывания белья, это было бы сделано десятки лет назад. Мир слишком сложен и непредсказуем для ручного описания всех переменных .
- Аналогия с текстом: Подобно тому как LLM (языковые модели) находят паттерны в тексте, роботы должны учиться на опыте, находя закономерности в физическом взаимодействии, которые невозможно выразить словами .
🏠 Прорыв π0: Уборка в незнакомом доме 1:32
Недавний анонс модели π0 (pi-zero) стал важной вехой для компании. Инженеры поставили перед роботом задачу: прийти в абсолютно новый дом, который он никогда не видел, и выполнить сложную задачу с длинным горизонтом планирования, например, убрать спальню или кухню .
Сложность этой задачи часто недооценивается людьми:
- Навигация в хаосе: Робот не знает, где лежат губки, как открываются ящики и как выглядят конкретные столешницы в этом доме .
- Результативность: На текущем этапе модель справляется в новых условиях в 50–80% случаев . Это огромный скачок по сравнению с предыдущими системами, которые требовали сбора данных именно в том месте, где планировалась демонстрация .
- Порог надежности: Лаки Грум отмечает, что для выхода на потребительский рынок надежность должна составлять 98–99% . До этого момента ценность технологии будет концентрироваться в коммерческом и промышленном секторах.
📊 Проблема данных: Интернет против реальности 5:25
Обучение роботов радикально отличается от обучения GPT. У разработчиков нет «открытого интернета», полного видеоинструкций по каждому физическому движению с обратной связью.
Хаусман выделяет два типа данных, используемых PI:
- Разнородные источники: Модели обучаются на данных от мобильных манипуляторов в домах, статических роботов в офисах и даже на видео из интернета .
- Физическое взаимодействие: Самые важные данные — это тактильное взаимодействие с объектами. Это «невыразимое знание», которое люди не могут описать словами, а симуляторы до сих пор не могут достоверно воспроизвести .
Разработчики скептически относятся к симуляциям для манипуляций. В то время как локомоция (ходьба) успешно тренируется в цифре, имитация взаимодействия с мягкими или мелкими предметами (например, одеждой) требует слишком сложных физических расчетов . Стратегия Physical Intelligence — идти «в лоб», собирая данные в реальном мире.
🏢 Культура Stripe и наследие Google «Arm Farm» 12:39
Основатели принесли в стартап опыт двух гигантов индустрии. Кароль Хаусман ранее работал над легендарным проектом Google «Arm Farm» (Ферма манипуляторов) .
- Урок Google: «Ферма» доказала, что обучение на опыте работает лучше ручного кодинга, но процесс был мучительно долгим, так как роботы тратили тысячи часов на беспорядочные движения, прежде чем научиться просто брать предмет .
- Урок Stripe: Лаки Грум перенес из финтеха принципы экстремальной сонаправленности (alignment) команды. В PI практически нет «налога на выравнивание» — сотрудники настолько мотивированы сами по себе, что их не нужно вдохновлять на работу над фундаментальными проблемами .
🔮 Будущее: От складывания белья до AGI 21:42
Разговор зашел и о масштабных амбициях. Несмотря на то что робототехника сейчас находится на этапе R&D, сооснователи видят четкий путь развития.
- Роботы как источник данных: В будущем именно роботы могут стать основными поставщиками данных для LLM. Информация о реальном мире бесконечна, в отличие от текстов в сети, количество которых конечно .
- Скепсис по поводу аналогий: Лаки Грум считает аналогию с беспилотными автомобилями (Tesla vs Waymo) полезной, но опасной. Робототехника может столкнуться с таким же 15-летним циклом разработки, прежде чем станет массовой .
- Тест на AGI: На шутливый вопрос о «финальном боссе» для робота-повара, Хаусман ответил, что приготовление сложной лазаньи от Don Angie станет моментом достижения истинного общего интеллекта .
Physical Intelligence позиционирует себя не просто как производителя железа, а как создателя универсального «мозга». Их девиз звучит как предложение рынку: «Вы строите тело, мы строим интеллект» .