Компания Figure AI представила новую модель управления гуманоидными роботами под названием Helix. Это решение претендует на звание одного из самых значимых технологических прорывов в индустрии, поскольку объединяет зрение, язык и действие в единую нейронную сеть. Ведущий канала Wes Roth детально разбирает, как Helix меняет подход к обучению машин и почему 2025 год может стать «годом роботов».
🤖 Прорыв Helix: от слов к действиям 0:00
Основой новой разработки Figure AI стала модель типа VLA (Vision-Language-Action — «Зрение-Язык-Действие»). Если привычные большие языковые модели (LLM), такие как ChatGPT, умеют только общаться, а мультимодальные модели (VLM) — анализировать изображения, то VLA делает следующий шаг: она переводит текстовые рассуждения и визуальные образы в конкретные физические команды для приводов робота .
Ключевые особенности Helix, выделенные в презентации:
- Высокочастотное непрерывное управление: это первая VLA-модель, способная в реальном времени контролировать всю верхнюю часть тела гуманоида, включая торс, голову, запястья и каждый отдельный палец .
- Работа с неизвестными объектами: роботы, оснащенные Helix, способны взаимодействовать с тысячами предметов, которые они никогда не видели в процессе обучения, просто следуя голосовым подсказкам на естественном языке .
- Единая нейронная сеть: в отличие от предыдущих подходов, где для каждого навыка (открыть ящик, взять яблоко) требовалась отдельная настройка, Helix использует один набор весов нейросети для всех видов поведения .
- Автономность и энергоэффективность: модель полностью работает «на борту» робота на встроенных графических процессорах с низким энергопотреблением, что делает её готовой к коммерческому использованию .
По мнению Уэса Рота, индустрия робототехники становится всё более «демократичной» . Он отмечает, что конкуренция между Figure, Tesla (с их Optimus) и китайской Unitree ускоряет инновации и в конечном итоге приведет к снижению цен на подобные устройства.
🤝 Один мозг на двоих: совместная работа роботов 5:51
Одним из самых впечатляющих элементов демонстрации Helix стала одновременная работа двух роботов над общей задачей. По словам Рота, их можно рассматривать как две руки одного организма, управляемые «единым мозгом» или копиями одной и той же модели .
В ходе демонстрации роботы выполняли сложные задачи по уборке предметов, распределяя роли между собой:
- Один робот брал предмет и передавал его другому.
- Второй принимал вещь и убирал её в соответствующее место (например, в ящик или холодильник).
- Координация происходила через естественный язык: один робот «понимал», что нужно передать печенье партнеру справа, а второй — что нужно его принять .
Рот обратил внимание на интересную деталь: роботы демонстрируют зачатки «социального поведения». Например, когда человек заходит в комнату и начинает говорить, они оба поворачивают головы в его сторону . Также после успешной передачи предмета роботы на мгновение смотрят друг на друга, что, по мнению автора, может быть заложенной инструкцией для подтверждения контакта .
🧠 Система 1 и Система 2: биологический подход к ИИ 11:54
Разработчики Helix применили к обучению роботов концепцию человеческого мышления «Система 1 и Система 2», популяризированную Даниэлем Канеманом.
- Система 1 (Интуиция): это быстрые, бессознательные реакции, работающие как автопилот. В роботе это реализовано через простую политику управления на базе трансформера, которая отвечает за мгновенные движения и реактивность .
- Система 2 (Рациональность): медленное, логическое мышление. Здесь используется VLM-модель с 7 миллиардами параметров, которая анализирует ситуацию и строит план действий .
Helix выступает мостом между этими системами. Когда человек просит робота «взять яблоко», Система 2 объясняет пошагово, как это сделать, а Система 1 сжимает эти инструкции в быстрые, подсознательные физические движения . Примечательно, что Figure AI, похоже, отошла от использования моделей OpenAI в пользу открытых (open-weight) VLM-решений .
📉 Законы масштабирования и синтетические данные 14:30
Одной из главных проблем домашней робототехники всегда считалась нехватка данных. В отличие от заводов, дома людей — это «чистый хаос» с бесконечным разнообразием предметов . Рот цитирует Джонатана Росса, основателя Groq и создателя TPU в Google, который утверждает, что «законы масштабирования» ИИ ещё не достигли своего предела .
Аргументы Росса и Рота по поводу данных:
- Качество важнее количества: даже если данные в интернете закончатся, улучшение их качества позволит моделям расти дальше .
- Синтетические данные и самообучение: Рот приводит пример AlphaGo Zero, которая стала непобедимой, играя сама с собой, а не обучаясь на играх людей .
- Авто-разметка: Figure AI использует ИИ-«кинокритика» (другую модель), которая просматривает видео работы робота и сама пишет текстовые описания (hindsight instructions) для обучения Helix .
Для обучения Helix было использовано всего около 500 часов данных телеопераций (когда человек управляет роботом в VR-шлеме), что считается относительно небольшим объемом для такого уровня обобщения .
🧐 Скептицизм и реальность: маркетинг против «грязного» видео 6:45
Несмотря на восторг от технологий, Уэс Рот высказывает критические замечания в адрес маркетинговой стратегии Figure AI. Его главная претензия — избыточная «глянцевость» и монтаж роликов.
- Запрос на сырые кадры: автор и многие комментаторы в сети призывают компанию показать длинное, несмонтированное видео, снятое на обычный телефон, чтобы увидеть реальную скорость и возможные ошибки роботов .
- Сравнение с Unitree: Рот хвалит китайских разработчиков за то, что они не боятся показывать, как их роботы спотыкаются, падают или подвергаются физическим испытаниям («избиениям») со стороны инженеров . Это дает более реалистичное представление о возможностях машины.
- Ограниченность движений: в большинстве демо-роликов Figure роботы стоят на месте, лишь слегка поворачивая торс. Рот хочет видеть полноценную навигацию в пространстве и выполнение задач «на ходу» .
В то же время проект в Спартанбурге (завод BMW) показывает, что роботы Figure уже проходят испытания в реальном производстве, перемещая листы металла по сборочной линии . Однако и здесь остается вопрос: насколько эти действия автономны и управляются ли они голосом, как в лабораторных тестах .