Как видеомодели ИИ воссоздают законы физики: разбор Luma Dream Machine

Компания Luma совершила прорыв в области генеративного искусственного интеллекта, представив видеомодель Dream Machine, способную моделировать трехмерные свойства и физические законы реального мира. В рамках подкаста венчурного фонда a16z разработчик Джаминг подробно рассказал о переходе компании от точечной 3D-реконструкции к масштабной генерации видео, в процессе которой у нейросетей эмерджентно зарождаются понимание пространства, света и сложных причинно-следственных связей. Эта беседа наглядно иллюстрирует «горький урок» компьютерных наук, где чистая вычислительная мощность успешно заменяет десятилетия работы инженеров традиционной графики.

🧩 От 3D-сканирования к генеративной модели: История Luma 0:13

Изначально деятельность стартапа Luma лежала исключительно в плоскости трехмерной реконструкции и захвата объектов реального мира. Как вспоминает Джаминг, пользователи могли запустить дрон вокруг достопримечательности или использовать камеру мобильного телефона, чтобы превратить обычную видеозапись в интерактивную 3D-сцену. На тот момент 핵심-продуктом компании являлась именно репрезентация объектов в трехмерном пространстве для последующего взаимодействия с ними.

Следующим логичным шагом для компании стал переход от чистого восстановления геометрии к генерации объектов. В ноябре прошлого года команда представила инструмент Genie, позволяющий создавать трехмерные ассеты на основе текстовых промптов. Однако в процессе работы с лучшими специалистами индустрии команда Luma столкнулась с фундаментальной проблемой масштабирования 3D-данных.

Джаминг выделяет ключевые барьеры, мешавшие развитию традиционного 3D-моделирования:

Сбор трехмерных данных крайне ограничен: в отличие от фото и видео, которые любой человек может легко снять на смартфон, создание качественных 3D-моделей требует профессиональных инженерных знаний.
Существующие методы многоракурсного захвата (multiview capture) до сих пор остаются сложными и недоступными для рядовых пользователей.

Решение проблемы пришло со стороны двумерных базовых моделей. Разработчики осознали, что вместо обучения ИИ исключительно на редких 3D-данных, можно использовать огромные массивы плоских изображений. Команда Luma применила подход, при котором диффузионная базовая модель сначала обучается на гигантском объеме 2D-данных, перенимая семантические знания о мире, а затем дообучается (fine-tune) на многоракурсных изображениях. Это позволило преодолеть барьер «непонимания» моделью различных сторон одного и того же объекта, объединив семантическую базу двумерного мира с геометрической точностью трехмерного.

👁️ Феномен Dream Machine: Как видео обучает ИИ трехмерной логике 4:07

После успешной интеграции 2D-моделей для генерации 3D-объектов команда сделала следующий шаг — обратилась к анализу видеоматериалов. По словам Джаминга, плоские изображения не дают модели понимания того, как в мире работают движения камеры и объектов. Видеозаписи, напротив, содержат в себе эти врожденные наблюдения в избытке.

Результаты обучения превзошли ожидания исследовательского сообщества. Модель Dream Machine продемонстрировала способность самостоятельно выстраивать трехмерную логику, основываясь на видеоряде. Самым удивительным открытием для Джаминга стало то, что огромный масштаб вычислений — это фактически все, что нужно для воспроизведения сложнейших визуальных и физических эффектов, на ручную симуляцию которых в сообществах компьютерной графики и физического моделирования уходили годы.

Процесс проверки возможностей Dream Machine строился по лаконичному и эффективному конвейеру:

На вход модели подавалось произвольное статичное изображение.
Dream Machine использовала этот кадр в качестве промпта и генерировала на его основе плавное видео.
Полученное видео отправлялось в стандартный алгоритм 3D-реконструкции Luma.

На выходе инженеры получали структурно консистентную трехмерную сцену. По мнению Джаминга, данный эксперимент доказывает, что Dream Machine способна рассуждать о 3D-пространстве значительно точнее любых существовавших ранее моделей, обучавшихся на «сырых» трехмерных данных. Модель улавливает детали в гораздо более высоком разрешении, обходя классические ограничения систем захвата, такие как смазывание углов, незавершенность съемки на 360 градусов или размытие в движении.

💡 Опровержение традиционных подходов: NeRF и Gaussian Splatting без 3D-приоров 9:05

Чтобы наглядно подтвердить успехи модели, команда протестировала Dream Machine на популярных наборах данных, используемых для обучения нейронных полей радиационной яркости (NeRF). Технология NeRF, появившаяся в 2020 году, базируется на методах объемного рендеринга и вычисляет цвет и прозрачность каждой точки в пространстве, интегрируя лучи света. Позже на смену ей пришел метод Gaussian Splatting, сделавший интерактивное взаимодействие с объектами значительно более быстрым и эффективным за счет высокой частоты кадров (FPS).

Однако ключевой недостаток обеих традиционных технологий заключается в том, что для качественной реконструкции им требуются сотни снимков объекта, сделанных с идеальной точностью под разными углами. Dream Machine полностью меняет правила игры, поскольку ей достаточно всего одного стартового кадра.

В качестве примеров Джаминг демонстрирует сцены со сложным распределением света:

Рендеринг кофейного столика: при изменении угла обзора на глянцевой поверхности стола корректно и динамически меняются блики и отражения света.
Тест на датасете Zip-Nerf: модель генерирует пятисекундный ролик по одной фотографии комнаты, в котором по мере движения виртуальной камеры в экране выключенного телевизора реалистично смещается отражение окна.

Главный повод для гордости разработчиков заключается в том, что Dream Machine не имела абсолютно никаких встроенных трехмерных приоритетов (3D priors) и не обучалась специально на датасетах NeRF. Модель самостоятельно раскрыла физические свойства преломления света и геометрии объектов в процессе обучения генерации видео. Несмотря на то, что Джаминг скромно отмечает возможные микроскопические погрешности при сверке с идеальным физическим симулятором, текущие результаты уже выглядят невероятно убедительно.

🌊 Глубина, свет и динамика: Эмерджентные способности модели 14:38

В процессе масштабного обучения Dream Machine приобрела целый комплекс скрытых возможностей, которые традиционно требовали программирования отдельных тяжеловесных графических движков. Первым важнейшим эмерджентным свойством стало глубинное зрение (depth perception). На примерах сгенерированных видео четко видно, что модель понимает разницу между передним и задним планом: при повороте камеры объекты на переднем плане движутся быстрее отдаленного фона. Это понимание глубины сохраняется даже в абстрактных сценах (например, вращение концентрических кругов) и при хаотичном движении множества мелких объектов, таких как листопад.

Вторым сложным аспектом, который модель освоила автономно, стал перенос света (light transport). Джаминг приводит ряд ярких визуальных примеров:

Взаимодействие неонового света с одеждой: красная неоновая вывеска Luma отражается на левой стороне куртки идущего человека, плавно насыщая ткань цветом по мере приближения к источнику.
Отражения на воде: анимационный медвежонок покачивается на волнах, и его зеркальное отражение на водной глади в точности повторяет каждое мимолетное движение и искажение волн.
Полупрозрачные текстуры: при облете камеры вокруг зеленого листа модель корректно симулирует прохождение солнечных лучей сквозь его структуру.

Аналогичный прорыв зафиксирован в области симуляции динамики материалов. Когда команда подала на вход Dream Machine обычную фотографию офисной кофемашины, сгенерированное видео детально воспроизвело отражения на хромированном металле. Более того, модель успешно справляется с нетривиальными физическими процессами — движением воды, колыханием шерсти животных, физикой теней жирафа во время ходьбы или сложнейшим поведением ткани на ветру за спиной движущегося человека. В классической графике симуляция одежды считается одной из самых трудоемких задач, здесь же она решается нейросетью «из коробки» без привлечения игровых движков.

🎬 Новая ступень эволюции: Режиссерские склейки и психологическая причинность 19:22

Если пространственную согласованность и свет еще можно списать на продвинутую интерполяцию кадров, то главным критерием подлинного понимания реальности Джаминг называет причинно-следственные связи (causality). Модели предыдущих поколений функционировали скорее как простые аниматоры картинок: они могли придать движение кадру, но избегали резких изменений планов и монтажных склеек. Dream Machine перешагнула этот барьер.

В качестве доказательства разработчик демонстрирует пример генерации видео по изображению маленького пушистого монстра. Нейросеть неожиданно совершила профессиональную режиссерскую склейку, сменив ракурс. При этом ИИ полностью сохранил семантическую идентичность персонажа и окружения: во втором кадре монстр остался синим и пушистым, а на заднем плане воспроизвелся тот же инопланетный лес. Модель самостоятельно вывела логику того, что при смене ракурса объект за камерой не перестает существовать.

Еще более поразительный пример касается области человеческой психологии и драматургии. На вход модели подали изображение огромного пугающего глаза, перед которым стоит девочка, повернутая спиной. На сгенерированном видео Dream Machine выдает крупный план лица этой девочки, и её мимика выражает глубокий ужас.

Джаминг делает из этого важный концептуальный вывод:

Модель способна просчитывать причинно-следственные связи, выходящие далеко за рамки сухой ньютоновской физики.
ИИ начинает улавливать базовые паттерны человеческой психологии и логику страха.
Даже при резкой смене кадра сохраняются тонкие детали одежды и прически персонажа (синее платье и короткая стрижка), что подтверждает наличие у модели устойчивого внутреннего представления о сцене.

По мнению спикеров, эта глубокая причинность является чистым эмерджентным свойством, возникшим исключительно благодаря правильному подбору данных и масштабным наблюдениям за тем, как меняются ракурсы в кинематографе. При этом инженеры Luma специально не закладывали в архитектуру никаких дополнительных алгоритмических ограничений, полностью доверившись концепции масштабного обучения.

🔮 Будущее ИИ: От видео к 4D-симуляторам мира 24:35

Способности Dream Machine распространяются и на вымышленные, художественные миры. Модель способна корректно перемещать камеру и вводить новые визуальные концепты внутри абстрактных картин или набросков, которые не имеют никакого смысла с точки зрения фундаментальной физики. Джаминг считает, что это приближает ИИ к механизмам человеческого воображения и снам. По его мнению, излишний фундаментализм в отношении законов физики при обучении нейросетей может затормозить их творческий потенциал.

В планах команды Luma на ближайшее будущее стоит планомерное улучшение текущей версии Dream Machine по всем ключевым направлениям: повышение разрешения, оптимизация скорости работы, точность следования текстовым промптам и внедрение инструментов более гибкого контроля.

Однако глобальное видение компании простирается гораздо дальше текущих коммерческих задач. Джаминг озвучил две фундаментальные цели:

Создание 4D-симуляторов мира. Если сегодня ИИ успешно переходит от 2D-картинок к 3D-видео, то следующим шагом станет способность симулировать сцены со множества ракурсов одновременно в реальном времени, создавая полноценные интерактивные пространства.
Развитие сильного мультимодального интеллекта. Человек воспринимает мир комплексно — через зрение, слух, тактильные ощущения и активное взаимодействие. Команда стремится объединить все доступные сигналы (текст, изображения, видео, аудио) в рамках единой нейросетевой архитектуры, способной обучаться совместно.

Джаминг подчеркивает, что текущая Dream Machine — это лишь «версия ноль» или исследовательское превью. Истинный мультимодальный ИИ будущего сможет обрабатывать куда более комплексные запросы пользователей и демонстрировать гибкое понимание реальности, стирая грань между генеративным творчеством и настоящей интеллектуальной симуляцией.