Журналисты The Wall Street Journal решили провести смелый эксперимент, попытавшись создать полноценный короткометражный фильм, используя исключительно передовые инструменты генеративного ИИ. В ходе работы команда столкнулась как с впечатляющими возможностями новых моделей, так и с их серьезными ограничениями, наглядно продемонстрировав, что, несмотря на стремительный прогресс технологий, человеческая креативность остается незаменимым связующим звеном.
🤖 Рождение «Оптимакса 5000» 0:00
Эксперимент начался с создания необычного персонажа — робота «Оптимакс 5000», чья задача по сюжету — повышать эффективность работы человека. Видеоролик, снятый сотрудниками The Wall Street Journal, показывает абсурдную жизнь главной героини Джоанны, чья повседневность превращается в технологический кошмар под присмотром назойливого ИИ-помощника.
Авторы признаются, что процесс создания фильма был сопряжен с множеством технических трудностей, включая проблемы с консистентностью персонажей. Чтобы получить качественный результат, продюсер Жерар Коул сгенерировал около тысячи фрагментов видео, прежде чем удалось собрать финальную версию.
🛠 Инструментарий: Google Veo, Runway и другие 4:12
Для реализации проекта использовался целый стек современных ИИ-решений. По словам авторов, лидерами по качеству генерации стали инструменты от компаний Google и Runway.
- Google Veo (включая версию V3): Использовалась для создания визуальных эффектов и генерации видео по текстовым описаниям, при этом V3 способна объединять визуальный ряд с аудио.
- Runway: Применялась для работы с референсами персонажей, позволяя сохранять их узнаваемость в разных сценах.
- MidJourney: Послужил инструментом для дизайна главного героя — робота «Оптимакса 5000».
- ElevenLabs: Отвечала за генерацию синтетических голосов роботов.
- Suno: Использовался для создания финальной музыкальной композиции.
🎭 Сложности «ИИ-кинематографа» 4:47
Главным вызовом для команды стала проблема сохранения целостности персонажей (consistency) от кадра к кадру. Использование простейших промптов, вроде «женщина и робот занимаются спортом», давало визуально неплохие, но совершенно разные результаты, где герои постоянно меняли облик.
Чтобы преодолеть это, создатели прибегли к многоступенчатому процессу:
- Дизайн персонажей в MidJourney.
- Загрузка полученных изображений в инструмент референсов Runway для задания конкретной сцены.
- Использование первого сгенерированного кадра в качестве «базы» для Google Veo, который уже достраивал движение.
При этом некоторые элементы фильма создавались вручную. Например, сцена с «безумным ученым» потребовала записи видео с реальным человеком, которое затем было обработано функцией перестилизации (restyle) в Runway. Сама Джоанна также предпочла озвучить своего персонажа самостоятельно, так как ElevenLabs не могла точно передать нужные интонации.
💰 Цена прогресса и роль человека 6:23
Общая стоимость использования подписок на все упомянутые инструменты для создания такого проекта оценивается авторами примерно в $1000. Несмотря на «страшную» скорость совершенствования ИИ, команда подчеркивает: инструменты сами по себе — лишь пустые оболочки.
Авторы приходят к выводу, что качественное повествование, юмор и глубокий смысл по-прежнему требуют человеческого участия, оригинальных идей и сценарного мастерства, которое ИИ пока не может заменить полноценно.