На выставке CES 2025 генеральный директор NVIDIA Дженсен Хуанг представил стратегию развития компании, которая выходит далеко за рамки производства видеокарт. Центральной темой презентации стало превращение 2025 года в «момент ChatGPT» для робототехники — переломную точку, после которой физический ИИ начнет массово проникать в реальный мир. Глава технологического гиганта уверен, что мы стоим на пороге рождения крупнейшей индустрии в истории человечества.
🤖 2025 — год «физического ИИ» и робототехники 0:00
Дженсен Хуанг начал свое выступление с амбициозного прогноза: если 2024 год и всё, что было до него, можно назвать эпохой «до роботов», то 2025-й станет точкой невозврата . Ведущий канала Wes Roth отмечает, что обещания о «домашних роботах-помощниках» звучали десятилетиями, но именно сейчас технологии достигли нужной степени зрелости .
Ключевым отличием нового поколения систем Хуанг называет переход от языковых моделей (LLM) к моделям действия. Если ChatGPT получает текст и генерирует текстовые токены, то робот будущего будет получать визуальный контекст и генерировать «токены действий» . По мнению главы NVIDIA, для этого ИИ должен овладеть «языком мира», который включает в себя:
- Понимание физической динамики (гравитация, трение, инерция) .
- Осознание геометрических и пространственных отношений.
- Понимание причинно-следственных связей (например, падение предмета при толчке) .
- Концепцию постоянства объекта: знание того, что если мяч укатился под стол, он не перестал существовать .
🌌 NVIDIA Cosmos: «Мировая модель» нового поколения 3:44
Для реализации этого видения NVIDIA представила Cosmos — первую в мире фундаментальную «модель мира» (World Foundation Model) . В отличие от нейросетей, создающих креативный контент, Cosmos разработана для глубокого понимания законов физики.
Технические характеристики и возможности Cosmos:
- Обучение: Модель натренирована на 20 миллионах часов видео, запечатлевших движение людей, манипуляции руками и сложные динамические сцены .
- Функционал: Она способна генерировать синтетические данные для обучения других моделей, предсказывать физически возможные сценарии будущего («делать как Доктор Стрэндж», по выражению Хуанга) и описывать видео с невероятной точностью для обучения мультимодальных ИИ .
- Архитектура: Платформа включает авторегрессионную модель для работы в реальном времени и диффузионную модель для генерации высококачественных изображений .
- Доступность: Хуанг объявил, что Cosmos будет иметь открытую лицензию и станет доступна на GitHub . Он выразил надежду, что Cosmos сделает для робототехники то же самое, что архитектура Llama 3 сделала для корпоративного ИИ .
🏗️ Концепция «Трёх компьютеров» и цифровая промышленность 6:48
Дженсен Хуанг подчеркнул, что для создания полноценной робототехники недостаточно одной нейросети. Требуется связка Cosmos с системой Omniverse — симулятором, основанным на строгих алгоритмических принципах физики . Это решение Хуанг сравнил с технологией RAG (Retrieval Augmented Generation): Omniverse служит для Cosmos «источником истины», предотвращая ошибки в понимании физики .
Согласно стратегии NVIDIA, любая робототехническая компания (будь то завод или производитель автомобилей) должна использовать систему из трёх компьютеров:
- DGX — мощный сервер на базе GPU для первичного обучения ИИ .
- Omniverse (Цифровой двойник) — среда, где ИИ практикуется, проходит через обучение с подкреплением (RL) и генерирует синтетические данные .
- AGX — автономный компьютер «на борту» (внутри робота, машины или складского погрузчика) для исполнения задач в реальности .
Этот подход уже внедряется в индустрию с оборотом в $50 триллионов . NVIDIA объявила о партнерстве с компаниями Kion (автоматизация складов) и Accenture для цифровизации сотен тысяч заводов и складов по всему миру .
🏎️ Три столпа крупнейшей индустрии в истории 11:06
Хуанг выделил три типа «роботов», которые изменят мировую экономику, поскольку они не требуют радикальной перестройки существующей инфраструктуры (так называемых Green Fields) и могут работать в среде, созданной для людей :
- Агентивный ИИ (Agentic AI): Информационные работники будущего, способные действовать автономно в офисной среде .
- Беспилотные автомобили: Готовая инфраструктура дорог строилась последние 100 лет, и ИИ-водители — логичное завершение этого процесса .
- Гуманоидные роботы: Вершина робототехники, способная выполнять любые человеческие задачи.
Главной проблемой в создании гуманоидов Хуанг считает сложность сбора данных. Если для обучения машин достаточно просто водить их, то человеческие движения копировать сложнее . Решение NVIDIA заключается в преобразовании нескольких сотен «человеческих демонстраций» в миллионы синтетических движений внутри Omniverse, на которых ИИ сможет оттачивать мастерство .
Wes Roth резюмирует, что чип NVIDIA Blackwell, продемонстрированный на выставке, способен обрабатывать объем данных, сопоставимый со всем мировым интернет-трафиком, что дает техническую базу для реализации этих амбиций . По прогнозам автора, 2025 год станет отправной точкой для появления роботов, которые наконец-то выйдут за пределы лабораторий и начнут помогать людям в быту.