Как видеомодели ИИ воссоздают законы физики: разбор Luma Dream Machine

a16z (Andreessen Horowitz) 2 тыс. 29 мин 8 мин 09.09.2024
Главное

Компания Luma совершила прорыв в области генеративного искусственного интеллекта, представив видеомодель Dream Machine, способную моделировать трехмерные свойства и физические законы реального мира. В рамках подкаста венчурного фонда a16z разработчик Джаминг подробно рассказал о переходе компании от точечной 3D-реконструкции к масштабной генерации видео, в процессе которой у нейросетей эмерджентно зарождаются понимание пространства, света и сложных причинно-следственных связей. Эта беседа наглядно иллюстрирует «горький урок» компьютерных наук, где чистая вычислительная мощность успешно заменяет десятилетия работы инженеров традиционной графики.

🧩 От 3D-сканирования к генеративной модели: История Luma 0:13

Изначально деятельность стартапа Luma лежала исключительно в плоскости трехмерной реконструкции и захвата объектов реального мира. Как вспоминает Джаминг, пользователи могли запустить дрон вокруг достопримечательности или использовать камеру мобильного телефона, чтобы превратить обычную видеозапись в интерактивную 3D-сцену. На тот момент 핵심-продуктом компании являлась именно репрезентация объектов в трехмерном пространстве для последующего взаимодействия с ними.

Следующим логичным шагом для компании стал переход от чистого восстановления геометрии к генерации объектов. В ноябре прошлого года команда представила инструмент Genie, позволяющий создавать трехмерные ассеты на основе текстовых промптов. Однако в процессе работы с лучшими специалистами индустрии команда Luma столкнулась с фундаментальной проблемой масштабирования 3D-данных.

Джаминг выделяет ключевые барьеры, мешавшие развитию традиционного 3D-моделирования:

Решение проблемы пришло со стороны двумерных базовых моделей. Разработчики осознали, что вместо обучения ИИ исключительно на редких 3D-данных, можно использовать огромные массивы плоских изображений. Команда Luma применила подход, при котором диффузионная базовая модель сначала обучается на гигантском объеме 2D-данных, перенимая семантические знания о мире, а затем дообучается (fine-tune) на многоракурсных изображениях. Это позволило преодолеть барьер «непонимания» моделью различных сторон одного и того же объекта, объединив семантическую базу двумерного мира с геометрической точностью трехмерного.

👁️ Феномен Dream Machine: Как видео обучает ИИ трехмерной логике 4:07

После успешной интеграции 2D-моделей для генерации 3D-объектов команда сделала следующий шаг — обратилась к анализу видеоматериалов. По словам Джаминга, плоские изображения не дают модели понимания того, как в мире работают движения камеры и объектов. Видеозаписи, напротив, содержат в себе эти врожденные наблюдения в избытке.

Результаты обучения превзошли ожидания исследовательского сообщества. Модель Dream Machine продемонстрировала способность самостоятельно выстраивать трехмерную логику, основываясь на видеоряде. Самым удивительным открытием для Джаминга стало то, что огромный масштаб вычислений — это фактически все, что нужно для воспроизведения сложнейших визуальных и физических эффектов, на ручную симуляцию которых в сообществах компьютерной графики и физического моделирования уходили годы.

Процесс проверки возможностей Dream Machine строился по лаконичному и эффективному конвейеру:

  1. На вход модели подавалось произвольное статичное изображение.
  2. Dream Machine использовала этот кадр в качестве промпта и генерировала на его основе плавное видео.
  3. Полученное видео отправлялось в стандартный алгоритм 3D-реконструкции Luma.

На выходе инженеры получали структурно консистентную трехмерную сцену. По мнению Джаминга, данный эксперимент доказывает, что Dream Machine способна рассуждать о 3D-пространстве значительно точнее любых существовавших ранее моделей, обучавшихся на «сырых» трехмерных данных. Модель улавливает детали в гораздо более высоком разрешении, обходя классические ограничения систем захвата, такие как смазывание углов, незавершенность съемки на 360 градусов или размытие в движении.

💡 Опровержение традиционных подходов: NeRF и Gaussian Splatting без 3D-приоров 9:05

Чтобы наглядно подтвердить успехи модели, команда протестировала Dream Machine на популярных наборах данных, используемых для обучения нейронных полей радиационной яркости (NeRF). Технология NeRF, появившаяся в 2020 году, базируется на методах объемного рендеринга и вычисляет цвет и прозрачность каждой точки в пространстве, интегрируя лучи света. Позже на смену ей пришел метод Gaussian Splatting, сделавший интерактивное взаимодействие с объектами значительно более быстрым и эффективным за счет высокой частоты кадров (FPS).

Однако ключевой недостаток обеих традиционных технологий заключается в том, что для качественной реконструкции им требуются сотни снимков объекта, сделанных с идеальной точностью под разными углами. Dream Machine полностью меняет правила игры, поскольку ей достаточно всего одного стартового кадра.

В качестве примеров Джаминг демонстрирует сцены со сложным распределением света:

Главный повод для гордости разработчиков заключается в том, что Dream Machine не имела абсолютно никаких встроенных трехмерных приоритетов (3D priors) и не обучалась специально на датасетах NeRF. Модель самостоятельно раскрыла физические свойства преломления света и геометрии объектов в процессе обучения генерации видео. Несмотря на то, что Джаминг скромно отмечает возможные микроскопические погрешности при сверке с идеальным физическим симулятором, текущие результаты уже выглядят невероятно убедительно.

🌊 Глубина, свет и динамика: Эмерджентные способности модели 14:38

В процессе масштабного обучения Dream Machine приобрела целый комплекс скрытых возможностей, которые традиционно требовали программирования отдельных тяжеловесных графических движков. Первым важнейшим эмерджентным свойством стало глубинное зрение (depth perception). На примерах сгенерированных видео четко видно, что модель понимает разницу между передним и задним планом: при повороте камеры объекты на переднем плане движутся быстрее отдаленного фона. Это понимание глубины сохраняется даже в абстрактных сценах (например, вращение концентрических кругов) и при хаотичном движении множества мелких объектов, таких как листопад.

Вторым сложным аспектом, который модель освоила автономно, стал перенос света (light transport). Джаминг приводит ряд ярких визуальных примеров:

Аналогичный прорыв зафиксирован в области симуляции динамики материалов. Когда команда подала на вход Dream Machine обычную фотографию офисной кофемашины, сгенерированное видео детально воспроизвело отражения на хромированном металле. Более того, модель успешно справляется с нетривиальными физическими процессами — движением воды, колыханием шерсти животных, физикой теней жирафа во время ходьбы или сложнейшим поведением ткани на ветру за спиной движущегося человека. В классической графике симуляция одежды считается одной из самых трудоемких задач, здесь же она решается нейросетью «из коробки» без привлечения игровых движков.

🎬 Новая ступень эволюции: Режиссерские склейки и психологическая причинность 19:22

Если пространственную согласованность и свет еще можно списать на продвинутую интерполяцию кадров, то главным критерием подлинного понимания реальности Джаминг называет причинно-следственные связи (causality). Модели предыдущих поколений функционировали скорее как простые аниматоры картинок: они могли придать движение кадру, но избегали резких изменений планов и монтажных склеек. Dream Machine перешагнула этот барьер.

В качестве доказательства разработчик демонстрирует пример генерации видео по изображению маленького пушистого монстра. Нейросеть неожиданно совершила профессиональную режиссерскую склейку, сменив ракурс. При этом ИИ полностью сохранил семантическую идентичность персонажа и окружения: во втором кадре монстр остался синим и пушистым, а на заднем плане воспроизвелся тот же инопланетный лес. Модель самостоятельно вывела логику того, что при смене ракурса объект за камерой не перестает существовать.

Еще более поразительный пример касается области человеческой психологии и драматургии. На вход модели подали изображение огромного пугающего глаза, перед которым стоит девочка, повернутая спиной. На сгенерированном видео Dream Machine выдает крупный план лица этой девочки, и её мимика выражает глубокий ужас.

Джаминг делает из этого важный концептуальный вывод:

По мнению спикеров, эта глубокая причинность является чистым эмерджентным свойством, возникшим исключительно благодаря правильному подбору данных и масштабным наблюдениям за тем, как меняются ракурсы в кинематографе. При этом инженеры Luma специально не закладывали в архитектуру никаких дополнительных алгоритмических ограничений, полностью доверившись концепции масштабного обучения.

🔮 Будущее ИИ: От видео к 4D-симуляторам мира 24:35

Способности Dream Machine распространяются и на вымышленные, художественные миры. Модель способна корректно перемещать камеру и вводить новые визуальные концепты внутри абстрактных картин или набросков, которые не имеют никакого смысла с точки зрения фундаментальной физики. Джаминг считает, что это приближает ИИ к механизмам человеческого воображения и снам. По его мнению, излишний фундаментализм в отношении законов физики при обучении нейросетей может затормозить их творческий потенциал.

В планах команды Luma на ближайшее будущее стоит планомерное улучшение текущей версии Dream Machine по всем ключевым направлениям: повышение разрешения, оптимизация скорости работы, точность следования текстовым промптам и внедрение инструментов более гибкого контроля.

Однако глобальное видение компании простирается гораздо дальше текущих коммерческих задач. Джаминг озвучил две фундаментальные цели:

  1. Создание 4D-симуляторов мира. Если сегодня ИИ успешно переходит от 2D-картинок к 3D-видео, то следующим шагом станет способность симулировать сцены со множества ракурсов одновременно в реальном времени, создавая полноценные интерактивные пространства.
  2. Развитие сильного мультимодального интеллекта. Человек воспринимает мир комплексно — через зрение, слух, тактильные ощущения и активное взаимодействие. Команда стремится объединить все доступные сигналы (текст, изображения, видео, аудио) в рамках единой нейросетевой архитектуры, способной обучаться совместно.

Джаминг подчеркивает, что текущая Dream Machine — это лишь «версия ноль» или исследовательское превью. Истинный мультимодальный ИИ будущего сможет обрабатывать куда более комплексные запросы пользователей и демонстрировать гибкое понимание реальности, стирая грань между генеративным творчеством и настоящей интеллектуальной симуляцией.

💬 Цитаты

«Масштаб вычислений — это в основном всё, что вам нужно для фиксации множества сложных эффектов, на разработку которых уходили годы.»

«Причинно-следственная связь определенно глубже, чем просто физика, она затрагивает аспекты человеческой психологии.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
NeRF
Технология создания трехмерных цифровых сцен на основе набора двухмерных фотографий методом объемного рендеринга.
Gaussian Splatting
Современный метод трехмерной визуализации, превосходящий NeRF по скорости рендеринга и эффективности взаимодействия с объектами.
Эмерджентные свойства
Новые качественные способности системы, которые появляются исключительно за счет ее масштабирования и отсутствуют у ее отдельных элементов.
Горький урок (The Bitter Lesson)
Тезис Ричарда Саттона о том, что в долгосрочной перспективе в области ИИ всегда побеждают методы масштабирования вычислений, а не заложенные человеком экспертные знания.
📊 Цифры
🗓 Хронология
  1. До ноября прошлого года Luma фокусируется на инструментах 3D-захвата и реконструкции объектов с дронов и телефонов.
  2. Ноябрь прошлого года Luma запускает предварительную версию генератора 3D-объектов Genie на базе текстовых промптов.
  3. Текущий момент (2024/2026) Выпуск базовой видеомодели Dream Machine и демонстрация эмерджентного понимания законов физики через видеоряд.
⚖️ Другая сторона
Искусственный интеллект Luma Dream Machine a16z NeRF видеомодели