Питер Чен: «Мы строим фундаментальный мозг для роботов»

Робототехника как новая глава AI: взгляд Питера Чена 2:11

Питер Чен, генеральный директор и сооснователь компании Covariant, уверен, что развитие искусственного интеллекта в робототехнике повторяет путь больших языковых моделей (LLM). По его мнению, создание универсального «фундаментального мозга» для роботов — это не просто теоретическая задача, а технологический сдвиг, который уже меняет промышленность, позволяя машинам понимать физический мир и действовать в нем автономно.

🛠 Путь к Covariant и философия «фундаментальных моделей» 3:04

Путь Питера Чена начался с глубокого интереса к программированию и машинному обучению в UC Berkeley под руководством профессора Питера Аббеля. Работая на заре OpenAI, когда команда еще трудилась в квартире Грега Брокмана, Чен впитал ключевые принципы, ставшие фундаментом успеха всей современной индустрии ИИ:

Использование фундаментальных моделей, масштабируемых на больших и разнообразных наборах данных.
Применение генеративных моделей для обработки неструктурированной информации.
Опора на обучение с подкреплением (Reinforcement Learning) для обучения агентов взаимодействию с миром.

Основав в 2017 году компанию Covariant, Чен перенес эти идеи в сферу робототехники. Он утверждает, что, в отличие от языка, где мы пытаемся сжать все человеческие знания, в робототехнике есть преимущество — единый физический мир. Это позволяет создать универсальную модель, способную управлять разными типами оборудования, независимо от выполняемых задач.

🌍 Что такое «мировая модель» в робототехнике? 14:06

Чен полагает, что обучение «мировой модели» — это единственный способ создать по-настоящему автономные системы. Вместо того чтобы полагаться на случайные пробы и ошибки, робот должен обладать «пониманием» физики:

Робот должен предсказывать последствия своих действий: насколько стабилен захват объекта, куда он упадет при определенных условиях.
Это знание универсально: оно одинаково применимо как при складывании белья, так и при сортировке товаров в логистическом центре.

Собеседник отмечает, что чистые видеоданные из интернета (например, с YouTube) недостаточны для обучения. Для высокой точности Covariant комбинирует три источника: данные из открытых источников, синтетические данные и, что важнее всего, реальный опыт работы роботов в производственных условиях 24/7.

🤖 Архитектура и будущее индустрии 30:21

Отвечая на вопрос о внутреннем устройстве моделей, Чен подчеркивает, что в робототехнике скорость и стоимость вывода (inference) критически важны. Поэтому архитектура Covariant — это не чистый «трансформер», а комбинация сверточных нейронных сетей, механизмов внимания и графовых моделей, оптимизированная под конкретные аппаратные ограничения.

По мнению Чена, мы находимся на пороге значительного качественного скачка. Несмотря на то что массовое внедрение роботов сдерживается не столько ИИ, сколько сложностями физического оборудования (hardware), текущие темпы масштабирования данных и вычислительных мощностей ведут к появлению всё более «умных» и способных систем.

🏭 Будущее складов: от автоматизации к «темным» фабрикам 42:26

Питер Чен видит развитие складов как постепенную эволюцию:

Augmentation (Дополнение): Человек перестает выполнять однотипные движения 8 часов подряд, переходя к роли «оператора флота», управляющего группой из 10 роботов.
Скейлинг: Со временем один человек сможет курировать 50 или 100 машин.
Автономия: В долгосрочной перспективе возможны «темные» фабрики (без освещения и людей), где роботы работают круглосуточно, а вмешательство человека требуется лишь в исключительных случаях.

Чен убежден: хотя до «космических заводов на Луне» еще далеко, технология уже сегодня решает насущные проблемы нехватки рабочей силы и делает труд людей более интересным и продуктивным.