# Luma AI открыла доступ к Dream Machine: реальный конкурент Sora для создания видео

Источник: https://www.youtube.com/watch?v=ckKMwjFB0PQ
Канал: Wes Roth
Опубликовано: 12.06.2024

---

Индустрия генеративного видео переживает переломный момент: компания Luma AI выпустила в открытый доступ свою модель Dream Machine, которая обещает качество уровня Sora от OpenAI. Ведущий YouTube-канала Wes Roth анализирует возможности новинки, отмечает её сильные стороны в передаче физики и консистентности персонажей, а также предупреждает о пугающем потенциале технологии в создании хоррор-контента.

## 🚀 Новый игрок на поле видео-нейросетей
[[JUMP:0:00]]

До недавнего времени лидерство в сфере создания видео по тексту удерживали недоступные широкой публике модели. Sora от OpenAI поразила индустрию качеством, но осталась закрытым инструментом [0:00]. Китайская модель Kling показала впечатляющие результаты, однако для регистрации в ней требовался китайский номер телефона [0:14]. Появление Dream Machine от Luma AI меняет правила игры, предоставляя высококачественную генерацию видео каждому желающему прямо сейчас [0:30].

Из-за огромного наплыва пользователей сервера компании работают на пределе возможностей. По словам Уэса Рота, спрос на инструмент «взлетел до небес»: генерация одного короткого ролика по его запросу заняла около трёх часов [0:43]. Тем не менее, это первый случай, когда модель такого уровня стала общедоступной.

## 🛠 Возможности и рабочий процесс в Dream Machine
[[JUMP:1:11]]

Luma AI предлагает не только генерацию видео из текстовых описаний (text-to-video), но и оживление статичных изображений (image-to-video) [1:24]. В качестве примера Роту приводит опыт другого креатора, автора канала Theoretically Media, который использовал изображения из Midjourney для создания динамичных сцен [1:36].

Основные возможности модели включают:

*   **Динамичный экшен:** Модель способна создавать сложные сцены, напоминающие геймплей игры Hitman, где персонаж реалистично выглядывает из-за угла и целится из оружия [1:52].
*   **Контроль позы:** При работе с портретами модель понимает команды по изменению положения тела, например, просьбу «скрестить руки на груди» [3:11].
*   **Кинематографичность:** Dream Machine поддерживает различные движения камеры — наезды (zoom), панорамирование (pan) и вращение (rotate) [6:52].

Уэс Рот сравнивает работу с нейросетью с подходом профессионального фотографа [4:14]. Вместо того чтобы ждать идеального результата от первого же кадра, автор рекомендует генерировать сотни вариантов, меняя параметры и промпты, а затем выбирать лучшее. По его мнению, именно такой процесс фильтрации позволяет добиваться «голливудского» качества [4:54].

## 🧠 Техническая база и производительность
[[JUMP:5:06]]

Dream Machine представляет собой высокоэффективную архитектуру типа Transformer, обученную непосредственно на видеоматериалах [5:33]. Это позволяет нейросети понимать физику объектов и создавать «событийные» кадры.

Технические характеристики процесса:

1.  **Скорость:** Модель генерирует 120 кадров примерно за 120 секунд [5:12].
2.  **Физическая точность:** Утверждается, что модель способна создавать физически корректные взаимодействия объектов [5:33].
3.  **Консистентность персонажей:** В отличие от многих предыдущих моделей (таких как Pika или Runway), персонажи в Dream Machine сохраняют свой облик на протяжении всей сцены и не «морфят» случайным образом в другие объекты [6:26].

Ведущий отмечает интересный компромисс: если пользователь требует слишком строгого соблюдения специфических деталей в длинном кадре, персонаж может стать статичным. Если же дать нейросети больше творческой свободы, сцена получается более насыщенной действием, но менее предсказуемой [5:46].

## ⚠️ Текущие ограничения и ошибки
[[JUMP:7:05]]

Разработчики из Luma AI открыто признают недостатки текущей версии модели, выделяя четыре проблемные зоны [7:05]:

*   **Морфинг:** Нейросеть пока плохо справляется с плавным превращением одного объекта в другой (например, при попытке изменить цвет или марку автомобиля на ходу) [7:18].
*   **Движение (Скольжение):** Иногда объекты, такие как бегущая собака, могут неестественно «скользить» по поверхности земли [7:18].
*   **Текст:** Как и большинство визуальных нейросетей, Dream Machine испытывает трудности с рендерингом читаемых надписей [7:30].
*   **Эффект Януса (Janus effect):** Ошибка, при которой у существа или объекта может появиться две головы или две передние части. Рот объясняет это спецификой обучающих данных: нейросеть видела тысячи часов видео с обычными медведями, но у неё нет достаточного опыта в визуализации «двухголовых» аномалий [7:44].

## 💰 Доступность и стоимость
[[JUMP:9:05]]

Luma AI предлагает гибкую систему оплаты, ориентированную как на любителей, так и на профессиональные студии [9:05]:

*   **Бесплатный план:** 30 генераций в месяц (каждая генерация выдаёт два варианта видео) [9:17].
*   **Стандартный план:** $30 в месяц за 120 генераций.
*   **Профессиональный план:** $100 в месяц за 400 генераций.
*   **Премиум-план:** $500 в месяц за 2000 генераций (подходит для создания полноценных фильмов) [9:17].

## 🎬 Будущее контента: от киберпанка до хорроров
[[JUMP:10:34]]

В завершение обзора Уэс Рот демонстрирует возможности Dream Machine на примере короткометражных работ. Одной из них стала киберпанк-история о роботе и хранительнице храма Юки, где ИИ успешно справился с созданием атмосферного футуристичного города и эмоциональных сцен [10:34].

Особое внимание автор уделяет проекту «Сказки с той стороны» (Tales from the other side) [14:44]. По мнению Рота, сгенерированные нейросетью хоррор-видео обладают потенциалом стать самыми пугающими вещами, которые мы когда-либо видели [1:11]. Странность и небольшие дефекты ИИ-видео только усиливают эффект «зловещей долины», делая жанр ужасов наиболее перспективным для этой технологии на текущем этапе [8:10].