Wes Roth о модели Helix: «Прорыв Figure AI сделает 2025-й годом роботов»

Wes Roth 38,8 тыс. 25 мин 4 мин 22.02.2025
Главное

Компания Figure AI представила новую модель управления гуманоидными роботами под названием Helix. Это решение претендует на звание одного из самых значимых технологических прорывов в индустрии, поскольку объединяет зрение, язык и действие в единую нейронную сеть. Ведущий канала Wes Roth детально разбирает, как Helix меняет подход к обучению машин и почему 2025 год может стать «годом роботов».

🤖 Прорыв Helix: от слов к действиям 0:00

Основой новой разработки Figure AI стала модель типа VLA (Vision-Language-Action — «Зрение-Язык-Действие»). Если привычные большие языковые модели (LLM), такие как ChatGPT, умеют только общаться, а мультимодальные модели (VLM) — анализировать изображения, то VLA делает следующий шаг: она переводит текстовые рассуждения и визуальные образы в конкретные физические команды для приводов робота .

Ключевые особенности Helix, выделенные в презентации:

По мнению Уэса Рота, индустрия робототехники становится всё более «демократичной» . Он отмечает, что конкуренция между Figure, Tesla (с их Optimus) и китайской Unitree ускоряет инновации и в конечном итоге приведет к снижению цен на подобные устройства.

🤝 Один мозг на двоих: совместная работа роботов 5:51

Одним из самых впечатляющих элементов демонстрации Helix стала одновременная работа двух роботов над общей задачей. По словам Рота, их можно рассматривать как две руки одного организма, управляемые «единым мозгом» или копиями одной и той же модели .

В ходе демонстрации роботы выполняли сложные задачи по уборке предметов, распределяя роли между собой:

  1. Один робот брал предмет и передавал его другому.
  2. Второй принимал вещь и убирал её в соответствующее место (например, в ящик или холодильник).
  3. Координация происходила через естественный язык: один робот «понимал», что нужно передать печенье партнеру справа, а второй — что нужно его принять .

Рот обратил внимание на интересную деталь: роботы демонстрируют зачатки «социального поведения». Например, когда человек заходит в комнату и начинает говорить, они оба поворачивают головы в его сторону . Также после успешной передачи предмета роботы на мгновение смотрят друг на друга, что, по мнению автора, может быть заложенной инструкцией для подтверждения контакта .

🧠 Система 1 и Система 2: биологический подход к ИИ 11:54

Разработчики Helix применили к обучению роботов концепцию человеческого мышления «Система 1 и Система 2», популяризированную Даниэлем Канеманом.

Helix выступает мостом между этими системами. Когда человек просит робота «взять яблоко», Система 2 объясняет пошагово, как это сделать, а Система 1 сжимает эти инструкции в быстрые, подсознательные физические движения . Примечательно, что Figure AI, похоже, отошла от использования моделей OpenAI в пользу открытых (open-weight) VLM-решений .

📉 Законы масштабирования и синтетические данные 14:30

Одной из главных проблем домашней робототехники всегда считалась нехватка данных. В отличие от заводов, дома людей — это «чистый хаос» с бесконечным разнообразием предметов . Рот цитирует Джонатана Росса, основателя Groq и создателя TPU в Google, который утверждает, что «законы масштабирования» ИИ ещё не достигли своего предела .

Аргументы Росса и Рота по поводу данных:

Для обучения Helix было использовано всего около 500 часов данных телеопераций (когда человек управляет роботом в VR-шлеме), что считается относительно небольшим объемом для такого уровня обобщения .

🧐 Скептицизм и реальность: маркетинг против «грязного» видео 6:45

Несмотря на восторг от технологий, Уэс Рот высказывает критические замечания в адрес маркетинговой стратегии Figure AI. Его главная претензия — избыточная «глянцевость» и монтаж роликов.

В то же время проект в Спартанбурге (завод BMW) показывает, что роботы Figure уже проходят испытания в реальном производстве, перемещая листы металла по сборочной линии . Однако и здесь остается вопрос: насколько эти действия автономны и управляются ли они голосом, как в лабораторных тестах .

💬 Цитаты

«Helix — это первая VLA-модель, обеспечивающая высокочастотное непрерывное управление всем телом гуманоида, включая отдельные пальцы.»

Уэс Рот 1:05

«Я думаю, 2025 год станет годом робота.»

Уэс Рот 2:45

«Если качество данных становится выше, модель может продолжать совершенствоваться, даже если данные в интернете закончились.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VLA (Vision-Language-Action)
Мультимодальная модель ИИ, способная переводить визуальную и текстовую информацию непосредственно в физические команды для робота.
Система 1 и Система 2
Психологическая концепция мышления: Система 1 — быстрая и интуитивная, Система 2 — медленная и аналитическая.
Телеоперации
Метод управления роботом, при котором человек удаленно совершает движения, а робот их повторяет для записи обучающих данных.
📊 Цифры
🗓 Хронология
  1. Январь 2024 Figure AI демонстрирует навык робота по приготовлению кофе (предыдущая итерация).
  2. Октябрь 2024 Анонс модели Helix и демонстрация совместной работы двух роботов.
  3. 2025 Ожидаемый год широкого коммерческого внедрения гуманоидных роботов.
⚖️ Другая сторона
Искусственный интеллект Figure AI Helix VLA model Wes Roth гуманоидные роботы