# Как Waymark создали первый нарративный ИИ-фильм из миллиона изображений

Источник: https://www.youtube.com/watch?v=c1pPiGD7cBw
Канал: The Cognitive Revolution
Опубликовано: 14.09.2023

---

В рамках подкаста The Cognitive Revolution ведущий Нейтан Лебенс обсудил со своими коллегами из компании Waymark, Стивеном Паркером и Джошем Рубином, создание прорывного короткометражного фильма «The Frost». Этот 12-минутный проект стал уникальным прецедентом в индустрии, поскольку он полностью построен на визуальных образах, сгенерированных нейросетью DALL-E 2. Анализ их опыта раскрывает эволюцию творческого процесса — от радикального изменения продуктовой стратегии стартапа до преодоления технических ограничений ИИ ради создания связного кинематографического повествования.

## 🎬 Истоки: От шаблонов автоматизации к генеративному искусству
[[JUMP:01:06]]

История проекта началась задолго до появления первых ИИ-генераторов изображений. С 2017 по 2021 год технологическая компания Waymark развивала b2b-платформу, которая предлагала пользователям один из самых простых инструментов для ручного создания коммерческих видеороликов на основе готовых шаблонов. Продукция креативной команды стартапа пользовалась спросом, однако глубинный анализ отзывов клиентов выявил важный рыночный тренд: пользователям был нужен не просто удобный интерфейс «сделай сам» (DIY), а инструмент, способный полностью генерировать контент за них.

Нейтан Лебенс, занимавший пост генерального директора Waymark, признался, что всегда искал возможности внедрения ИИ для улучшения продукта, но существовавшие на тот момент технологии не позволяли добиться приемлемого качества. Прорыв наступил с выходом языковой модели GPT-3 от OpenAI. Традиционные методы видеопроизводства начали устаревать, и руководству компании стало очевидно, что индустрия стоит на пороге глобальной автоматизации.

## ⚡ Переломные моменты: Безумный разворот и первый миллион изображений
[[JUMP:01:59]]

Первым ключевым переломным моментом для команды стал сентябрь 2021 года, когда инженерам Waymark удалось успешно дообучить модель Curie от OpenAI. Полученные результаты настолько впечатлили генерального директора, что он принял радикальное и рискованное управленческое решение: используя полномочия CEO, Лебенс остановил практически все текущие процессы в компании, включая плановые заседания совета директоров. Вместо этого вся команда была отправлена на интенсивный обучающий курс Generative AI 101, а дорожная карта продукта была полностью переориентирована на рельсы генеративного искусственного интеллекта. Некоторые сотрудники, по воспоминаниям Лебенса, в тот момент решили, что руководитель потерял рассудок.

Второй поворотный пункт произошел в начале 2022 года. Благодаря статусу инновационного партнера OpenAI, Waymark получила эксклюзивный доступ к первой волне тестирования нейросети DALL-E 2. Креативный директор Стивен Паркер погрузился в генеративное искусство, лично создав более 1 миллиона изображений в рамках экспериментов с моделью. 

Изначально авторы планировали создать короткий визуальный монтаж под музыку, однако эстетика получившихся кадров натолкнула их на более амбициозную цель. Джош Рубин, ставший режиссером проекта, предложил проверить, возможно ли силами нейросети рассказать полноценную, связную драматическую историю. В итоге трех с половиной месяцев непрерывной работы команда из 7 человек создала 12-минутный нарративный фильм «The Frost».

## 🛠️ Ошибки и вызовы: Борьба со строптивым ИИ-оператором
[[JUMP:32:09]]

Основной массив трудностей при производстве был связан с тем, что нейросети образца конца 2022 года не были приспособлены для кинематографа. Стивен Паркер отмечает, что ИИ ведет себя как самостоятельный художник, которого невозможно полностью контролировать. В традиционном кино режиссер управляет каждым элементом на площадке, тогда как работа с ИИ превратилась в управление хаотичным, изменчивым субстратом.

В ходе экспериментов Стивен Паркер выделил три ключевых компонента успешного текстового промпта для удержания стилистики:

* **Контекстный раппер (Contextual wrapper):** использование фиксированного вымышленного названия проекта (например, *Tundar* для «The Frost») задает машине стабильное ассоциативное поле.
* **Ограничение палитры и стилистики:** четкое указание цветов (в данном случае — синий, серый и контрастный желтый) и имен известных голливудских операторов.
* **Понимание логики датасета:** формулировка описания кадра так, словно это реальный архивный снимок National Geographic или кадр с сайта IMDb, что повышает кинематографичность результата.

Огромной проблемой стало удержание внешности персонажей. Для главного героя, доктора Ульриха, авторам пришлось использовать утрированный визуальный архетип — седовласого безумного ученого в белом лабораторном халате и очках. Даже при одинаковом промпте лица постоянно менялись: в одних кадрах герой выглядел подтянутым, а в других — полнел на 30 фунтов и напоминал Санта-Клауса.

Кроме того, модель DALL-E 2 продемонстрировала неспособность адекватно передавать человеческие эмоции. Когда для сцены со сходом лавины требовалось изобразить «панику и животный ужас», нейросеть упорно выдавала лица с мягким, почти романтическим выражением. Авторам приходилось вручную дорисовывать мимику, корректировать форму губ и бровей в Photoshop. Динамика в кадре также создавалась искусственно: аниматор Мэтт Сешнс вырезал элементы статических картинок слоями и приводил их в движение методом «грубого кукловодства» в After Effects. Для имитации массовки использовались сторонние низкополигональные 3D-модели из библиотеки Mixamo.

## 💡 Уроки: Сила нарратива и «приручение» латентного пространства
[[JUMP:38:57]]

Главный художественный урок, который извлекла команда, заключается в особенностях человеческого восприятия. Как считает Джош Рубин, в процессе работы авторы сильно полагались на феномен «приостановки неверия» (suspension of disbelief) со стороны зрителей. Практика показала, что если аудитория искренне увлечена сюжетом, она подсознательно игнорирует визуальные несостыковки заднего плана, изменение формы палаток или мелкие метаморфозы лиц. Качественное звуковое оформление, единый голос актера озвучки и нагнетающая музыку атмосфера эффективно компенсировали визуальные огрехи ИИ.

С технической точки зрения Стивен Паркер сформулировал важную концепцию взаимодействия с ИИ-моделями через призму латентного пространства.

> «Я воспринимаю латентное пространство ИИ как своеобразную Вавилонскую библиотеку, где содержатся координаты всех когда-либо созданных человечеством визуальных объектов. Нейросеть не способна совершить фундаментальный научный прорыв или выйти за рамки координат своего датасета. Происходит лишь интерполяция — математическое смешивание пространств между уже известными точками».

С этой позиции Паркер объясняет появление знаменитого «кресла-авокадо»: это не творческое озарение машины, а успешное нахождение математического пересечения между формой кресла и текстурой фрукта, которые уже присутствовали в обучении. Настоящая сложность возникает тогда, когда создатель просит ИИ сгенерировать то, что противоречит логике его датасета. Например, DALL-E 2 отказывался рисовать яркий костер в дневное время или насыщенный красный шарф на общем синем цветовом фоне кадра, поскольку в истории кинематографа такие сцены проходят жесткую цветовую коррекцию и машина никогда не видела подобных исходников.

## 🚀 Текущий этап и взгляд в будущее: Runway Gen 2 и Frost 2
[[JUMP:1:12:01]]

На текущем этапе команда Waymark уже завершила работу над трейлером к сиквелу — «The Frost 2». За короткий промежуток времени технологии совершили качественный скачок: авторы полностью отказались от ручной анимации статических картинок DALL-E и перешли на прямую генерацию видео с помощью модели Runway Gen 2. Изначально модель выдавала лишь 4-секундные отрезки, но последнее обновление расширило хронометраж одного кадра до 18 секунд, что, по словам Рубина, кардинально меняет возможности режиссера.

В сфере работы со звуком авторы перешли на тестирование продвинутых систем клонирования голоса. В частности, они выделили платформу Eleven Labs с их технологией PRO voice clones, а также инструмент PlayHT, позволяющий разработчикам напрямую промптить необходимые человеческие эмоции (гнев, удивление, плач) поверх синтезируемого текста.

Анализируя долгосрочные перспективы индустрии на фоне масштабных забастовок сценаристов и актеров в Голливуде, спикеры сошлись во мнении, что автоматизация неизбежно изменит структуру рынка труда. Стивен Паркер прогнозирует появление принципиально новой экономической модели: в будущем именитые режиссеры смогут официально создавать, брендировать и лицензировать персональные модели fine-tuning, продавая свой уникальный «авторский цифровой отпечаток» сторонним создателям контента. 

При этом Джош Рубин убежден, что появление инструментов генерации видео по одному клику не обесценит человеческий труд. По его мнению, для создания по-настоящему глубокого и качественного нарративного кино всегда будет необходимо «500-футовое человеческое видение». Нейросети останутся лишь эффективным инструментом, тогда как функция удержания смыслов, критического мышления и контроля эмоций навсегда закрепится за человеком.