Джим Фан из NVIDIA: «У нас эмоции палеолита и технологии богов»

2024 год стал переломным моментом, когда фантастические видения начали обретать плоть, а искусственный интеллект перестал быть просто текстом на экране, превратившись в «двигатель физического мира». Ведущий канала Уэс Рот анализирует знаковые итоги года и прогнозы на 2025-й, опираясь на выводы ведущего исследователя NVIDIA доктора Джима Фана (Dr. Jim Fan), который предрекает наступление эпохи «божественных технологий» и повсеместной автономизации.

🤖 Эпоха «роботов-аборигенов»: от симуляции к реальности 1:46

Джим Фан утверждает, что нынешнее поколение людей — последнее, которое живет в мире без продвинутых автономных машин. По его мнению, «все, что движется, станет автономным» . Ключевой тренд 2024 года — взрывное развитие гуманоидных роботов. Выбор именно человекоподобной формы обусловлен прагматизмом: вся мировая инфраструктура, инструменты и приборы сконструированы под человеческую анатомию.

Среди лидеров индустрии выделяются несколько ключевых проектов:

Tesla Optimus: Уэс Рот отмечает смелость компании, продемонстрировавшей интерактивное демо в реальных условиях. Робот оснащен руками третьего поколения с 22 степенями свободы, что делает его лидером в точности манипуляций .
Boston Dynamics Atlas: сохраняет статус «чемпиона в тяжелом весе», демонстрируя невероятную гибкость суставов в 160 градусов, что позволяет ему выполнять «безумную гимнастику» .
Figure: компания демонстрирует рекордную скорость итераций, переходя от прототипа к развертыванию на заводах BMW в кратчайшие сроки .
Clone Robotics: стартап предложил биомиметический дизайн с искусственными мышцами и сухожилиями. Ведущий признается, что эстетика этих роботов напоминает «хоррор-муви» из-за их пугающей реалистичности и специфических движений .

Важнейшим технологическим прорывом стал метод Sim-to-Real (перенос обучения из симуляции в реальность). В симуляциях NVIDIA время течет в 10 000 раз быстрее, чем в нашей вселенной, при этом законы физики, трения и гравитации соблюдаются неукоснительно . Роботы проходят миллионы циклов обучения за считанные часы, после чего их «нейронные мозги» переносятся в физические тела.

🏠 Доступная робототехника для среднего класса 4:35

По прогнозам Уэса Рота и Джима Фана, высокотехнологичные роботы скоро станут доступнее автомобилей. Модель Unitree G1 стоимостью около $40 000 уже сейчас весит всего 35 кг и обладает впечатляющей маневренностью .

Особое внимание уделено проекту Aloha от Google DeepMind и Стэнфорда. Это набор для создания робота-помощника, который учится готовить и стирать через телеуправление .

Стоимость полного комплекта (включая ноутбук с потребительской видеокартой и веб-камеры) составляет около $32 000 .
Код проекта открыт на GitHub, что позволяет энтузиастам собирать системы дома.
Уэс Рот предполагает, что в ближайшее десятилетие сборка роботов для домашних дел может стать обычным хобби для подростков .

🧠 Проект GR00T и «сознание» машин 10:20

NVIDIA запустила инициативу Project GR00T — амбициозную попытку создать универсальный «мозг» для роботов. В рамках этого проекта была разработана базовая модель Hover на 1,5 миллиона параметров . Несмотря на малый размер по сравнению с LLM (языковыми моделями), Hover выполняет критическую роль: она координирует моторы робота, имитируя работу человеческого мозжечка на уровне подсознательных рефлексов .

Другой прорыв — Dr. Eureka. Эта система использует GPT-4 для написания кода вознаграждения в симуляциях. В ходе экспериментов выяснилось, что алгоритмы, написанные ИИ, зачастую превосходят по эффективности те, что созданы лучшими инженерами-людьми . По мнению Фана, это означает, что в будущем робототехника будет развиваться преимущественно за счет усилий самого ИИ, а не человеческого интеллекта.

🌍 Моделирование мира вместо генерации видео 17:00

Обсуждая модель Sora от OpenAI и аналоги, Уэс Рот подчеркивает, что называть их просто видеогенераторами — значит недооценивать их суть. Это «симуляторы мира» . Исследование Гарварда «Beyond Surface Statistics» подтвердило, что модели обучаются глубине и 3D-геометрии объектов, даже если им скармливают только обычные 2D-изображения .

Sora понимает интуитивную физику: отражения в воде, падение света и затенение .
Google VEO демонстрирует еще более точную динамику объектов .
World Labs (стартап Фэй-Фэй Ли) представил модель, которая превращает любое фото в интерактивное 3D-пространство, по которому можно «гулять» .

Эффект «нейронного моделирования» зашел так далеко, что исследователям удалось запустить классическую игру Doom внутри диффузионной модели без единой строчки исходного игрового кода. Нейросеть просто предсказывает следующий кадр на основе нажатий кнопок игрока .

📈 Гонка сверхмощных LLM и прорыв в логике 24:23

2024 год принес существенные изменения в архитектуре языковых моделей. Модель Claude 3.5 Sonnet шокировала сообщество своими способностями к программированию, а Gemini 1.5 Pro представила контекстное окно в 10 миллионов токенов .

In-context learning: Gemini научилась говорить на редком языке (менее 200 носителей в мире), изучив лишь 500 страниц словарей непосредственно в процессе диалога .
OpenAI o1 и o3: проекты, известные как «Strawberry» и «Q*», ознаменовали переход к «масштабированию во время инференса». Модель теперь «думает» перед ответом, выстраивая скрытые цепочки рассуждений .
Превосходство в математике: модели серии o3 начали обходить лучшие человеческие показатели на математических олимпиадах (AIME, IMO), что вынуждает создавать новые тесты «за пределами человеческих способностей» для измерения интеллекта ИИ .

🧬 ИИ в науке и медицине: Нобелевские горизонты 36:06

Джим Фан и Уэс Рот отмечают историческое признание ИИ научным сообществом: Нобелевские премии по физике и химии (за AlphaFold) в 2024 году фактически были вручены за достижения в области нейросетей .

Демис Хассабис, основатель DeepMind, полагает, что использование ИИ для моделирования протеинов может привести к «искоренению большинства болезней» . Тезис Джима Фана звучит радикально: «Сначала решите задачу создания ИИ, а затем используйте ИИ, чтобы решить всё остальное» .

🧠 Нейроинтерфейсы и интерфейс будущего 29:54

Ведущий считает тему взаимодействия человека и ИИ «критически недооцененной». Современные UI/UX (пользовательские интерфейсы) сильно отстают от возможностей самих моделей .

Конец «многостадийности»: Если раньше для голосового помощника нужно было связывать три разные модели (Whisper для текста, GPT для логики, TTS для голоса), то GPT-4o (Omni) обучалась на звуке напрямую. Это позволило ИИ шептать, петь и проявлять сарказм .
Neuralink: Уэс Рот напоминает о первом пациенте Ноланде Арбо, который, будучи парализованным, смог играть в Mario Kart и Civilization, управляя курсором силой мысли .

🏛 Резюме: Старые эмоции и технологии богов 39:17

В завершение Уэс Рот цитирует биолога Эдварда Уилсона, чьи слова Джим Фан считает девизом современной эпохи:

«Настоящая проблема человечества заключается в следующем: у нас эмоции палеолита, институты средневековья и технологии богов» .

Оба участника дискуссии сходятся во мнении, что 2025 год станет временем еще более глубокой интеграции «божественных технологий» в нашу жизнь. Несмотря на страхи, Джим Фан оптимистичен: технология неизбежна, но именно люди определяют роль, которую она будет играть в культуре и обществе.