Индустрия генеративного видео переживает переломный момент: компания Luma AI выпустила в открытый доступ свою модель Dream Machine, которая обещает качество уровня Sora от OpenAI. Ведущий YouTube-канала Wes Roth анализирует возможности новинки, отмечает её сильные стороны в передаче физики и консистентности персонажей, а также предупреждает о пугающем потенциале технологии в создании хоррор-контента.
🚀 Новый игрок на поле видео-нейросетей 0:00
До недавнего времени лидерство в сфере создания видео по тексту удерживали недоступные широкой публике модели. Sora от OpenAI поразила индустрию качеством, но осталась закрытым инструментом . Китайская модель Kling показала впечатляющие результаты, однако для регистрации в ней требовался китайский номер телефона . Появление Dream Machine от Luma AI меняет правила игры, предоставляя высококачественную генерацию видео каждому желающему прямо сейчас .
Из-за огромного наплыва пользователей сервера компании работают на пределе возможностей. По словам Уэса Рота, спрос на инструмент «взлетел до небес»: генерация одного короткого ролика по его запросу заняла около трёх часов . Тем не менее, это первый случай, когда модель такого уровня стала общедоступной.
🛠 Возможности и рабочий процесс в Dream Machine 1:11
Luma AI предлагает не только генерацию видео из текстовых описаний (text-to-video), но и оживление статичных изображений (image-to-video) . В качестве примера Роту приводит опыт другого креатора, автора канала Theoretically Media, который использовал изображения из Midjourney для создания динамичных сцен .
Основные возможности модели включают:
- Динамичный экшен: Модель способна создавать сложные сцены, напоминающие геймплей игры Hitman, где персонаж реалистично выглядывает из-за угла и целится из оружия .
- Контроль позы: При работе с портретами модель понимает команды по изменению положения тела, например, просьбу «скрестить руки на груди» .
- Кинематографичность: Dream Machine поддерживает различные движения камеры — наезды (zoom), панорамирование (pan) и вращение (rotate) .
Уэс Рот сравнивает работу с нейросетью с подходом профессионального фотографа . Вместо того чтобы ждать идеального результата от первого же кадра, автор рекомендует генерировать сотни вариантов, меняя параметры и промпты, а затем выбирать лучшее. По его мнению, именно такой процесс фильтрации позволяет добиваться «голливудского» качества .
🧠 Техническая база и производительность 5:06
Dream Machine представляет собой высокоэффективную архитектуру типа Transformer, обученную непосредственно на видеоматериалах . Это позволяет нейросети понимать физику объектов и создавать «событийные» кадры.
Технические характеристики процесса:
- Скорость: Модель генерирует 120 кадров примерно за 120 секунд .
- Физическая точность: Утверждается, что модель способна создавать физически корректные взаимодействия объектов .
- Консистентность персонажей: В отличие от многих предыдущих моделей (таких как Pika или Runway), персонажи в Dream Machine сохраняют свой облик на протяжении всей сцены и не «морфят» случайным образом в другие объекты .
Ведущий отмечает интересный компромисс: если пользователь требует слишком строгого соблюдения специфических деталей в длинном кадре, персонаж может стать статичным. Если же дать нейросети больше творческой свободы, сцена получается более насыщенной действием, но менее предсказуемой .
⚠️ Текущие ограничения и ошибки 7:05
Разработчики из Luma AI открыто признают недостатки текущей версии модели, выделяя четыре проблемные зоны :
- Морфинг: Нейросеть пока плохо справляется с плавным превращением одного объекта в другой (например, при попытке изменить цвет или марку автомобиля на ходу) .
- Движение (Скольжение): Иногда объекты, такие как бегущая собака, могут неестественно «скользить» по поверхности земли .
- Текст: Как и большинство визуальных нейросетей, Dream Machine испытывает трудности с рендерингом читаемых надписей .
- Эффект Януса (Janus effect): Ошибка, при которой у существа или объекта может появиться две головы или две передние части. Рот объясняет это спецификой обучающих данных: нейросеть видела тысячи часов видео с обычными медведями, но у неё нет достаточного опыта в визуализации «двухголовых» аномалий .
💰 Доступность и стоимость 9:05
Luma AI предлагает гибкую систему оплаты, ориентированную как на любителей, так и на профессиональные студии :
- Бесплатный план: 30 генераций в месяц (каждая генерация выдаёт два варианта видео) .
- Стандартный план: $30 в месяц за 120 генераций.
- Профессиональный план: $100 в месяц за 400 генераций.
- Премиум-план: $500 в месяц за 2000 генераций (подходит для создания полноценных фильмов) .
🎬 Будущее контента: от киберпанка до хорроров 10:34
В завершение обзора Уэс Рот демонстрирует возможности Dream Machine на примере короткометражных работ. Одной из них стала киберпанк-история о роботе и хранительнице храма Юки, где ИИ успешно справился с созданием атмосферного футуристичного города и эмоциональных сцен .
Особое внимание автор уделяет проекту «Сказки с той стороны» (Tales from the other side) . По мнению Рота, сгенерированные нейросетью хоррор-видео обладают потенциалом стать самыми пугающими вещами, которые мы когда-либо видели . Странность и небольшие дефекты ИИ-видео только усиливают эффект «зловещей долины», делая жанр ужасов наиболее перспективным для этой технологии на текущем этапе .