# От «Всё везде и сразу» до Gen-2: Как Runway меняет индустрию кино

Источник: https://www.youtube.com/watch?v=y3S1_vO6hx0
Канал: The TWIML AI Podcast
Опубликовано: 27.03.2023

---

В мире генеративного искусства произошел тектонический сдвиг: видеопроизводство, традиционно считавшееся одной из самых сложных и дорогостоящих сфер, переходит в эру автоматизации. Директор по технологиям и сооснователь компании Runway Анастасис Германидис в беседе с Сэмом Чаррингтоном обсуждает эволюцию нейросетевых моделей от редактирования отдельных кадров до полноценной генерации видео по текстовому описанию с помощью систем Gen-1 и Gen-2.

## 🎨 От академических опытов до голливудских спецэффектов
[[JUMP:00:00]]

Путь Анастасиса Германидиса в область искусственного интеллекта начался на стыке компьютерных наук и искусства. Еще учась в старшей школе, он изучал нейронные сети, хотя в то время фаворитом индустрии считались метод опорных векторов (SVM) [01:31]. Несмотря на то, что его первые попытки генерировать изображения с помощью многослойных перцептронов 10 лет назад не увенчались успехом, он продолжал следить за областью, дождавшись «момента AlexNet» и триумфа ImageNet в 2012 году [02:39].

Основатели Runway познакомились в магистратуре Нью-Йоркского университета на программе «Искусство и технологии». Изначально их целью было упростить доступ художникам к сложным ML-инструментам. В те годы творцам приходилось тратить 90% времени на настройку зависимостей, CUDA и кудин (cuDNN), прежде чем они могли приступить к творчеству [04:54].

Первые шаги Runway были связаны с созданием «хаба» для существующих моделей:

*   **Pix2Pix:** модель условной генерации, позволявшая превращать карты глубины или семантические маски в фотореалистичные изображения [03:21].
*   **GANs (генеративно-состязательные сети):** использовались для синтеза новых лиц и объектов.
*   **Style Transfer:** перенос художественного стиля одного изображения на другое.

По словам Германидиса, Runway быстро переросла стадию простого интерфейса для чужих моделей [18:17]. Команда осознала, что использование сторонних API ограничивает их в качестве и степени контроля, что привело к созданию собственного исследовательского подразделения для построения «полноценного стека» (full stack) AI-технологий [18:44].

## 🎬 Революция в видеопроизводстве: Кейс «Всё везде и сразу»
[[JUMP:08:44]]

Одним из самых трудоемких процессов в кинопроизводстве является ротоскопирование — отделение объекта от фона. Традиционно это требует покадровой ручной отрисовки масок. Инструмент Runway под названием «Green Screen» автоматизирует этот процесс, превращая пять часов рутины в пять минут работы алгоритма [08:57].

Практическая ценность технологий Runway подтвердилась на самом высоком уровне:

*   **The Late Show со Стивеном Кольбером:** команда графиков использует Runway для создания скетчей «день в день», когда идея рождается в полдень, а ролик должен быть в эфире вечером [10:02].
*   **Фильм «Всё везде и сразу»:** Германидис рассказал, что команда спецэффектов оскароносной картины состояла всего из 10 человек вместо сотен [11:11]. Это стало возможным благодаря использованию Runway для ускорения итераций и автоматизации сегментации видео контента. О том, что фильм создавался с помощью их инструментов, основатели Runway узнали случайно из треда в Twitter одного из режиссеров [12:30].

## 🧠 Gen-1: Видео на основе видео и магия глубины
[[JUMP:15:33]]

Первая крупная собственная модель Runway, Gen-1, сфокусирована на трансформации существующего видеопотока. Главная инновация здесь — использование карт глубины (depth maps) для обеспечения структурной целостности.

Германидис отмечает следующие ключевые характеристики Gen-1:

1.  **Контроль через глубину:** Модель берет структуру исходного видео и накладывает на неё новый стиль или персонажа, используя оценку глубины как связующее звено [20:15]. 
2.  **Гибкие настройки:** Пользователь может регулировать степень размытия карты глубины. Чем больше размытие, тем меньше модель следует исходнику, проявляя больше «воображения» в деталях движения [26:48].
3.  **Темпоральная связность:** В отличие от простой обработки кадров по отдельности, Gen-1 использует внутренние временные связи и механизмы внимания (temporal attention), чтобы избежать мерцания и артефактов между кадрами [25:00].

Модель поддерживает несколько режимов, таких как **Render Mode** (превращение простых 3D-болванок из Blender в фотореалистичные сцены) и **Storyboard Mode**, где стопка книг на столе может превратиться в панораму города через объектив смартфона [35:12].

## 🚀 Gen-2: Генерация из чистого листа
[[JUMP:46:12]]

Спустя всего несколько недель после выхода Gen-1, Runway анонсировала Gen-2 — модель, способную генерировать видео с нуля на основе текстового описания (Text-to-Video).

Основные отличия и возможности Gen-2:

*   **Отсутствие исходника:** Теперь пользователю не нужно снимать видео-референс. Достаточно написать «панда ведет машину», чтобы получить готовый ролик [46:54].
*   **Мультимодальное кондиционирование:** Пользователь может одновременно подать текстовое описание и изображение. Например, задать текстовое описание экшена и фото конкретного персонажа, чтобы получить последовательную серию кадров с сохранением внешности героя [48:00].
*   **Масштабирование:** Исследователи обнаружили, что для работы без видео-референса требуется значительно более крупная модель. Это помогло решить проблему «структурного распада», когда в ранних тестах идущий человек мог превратиться в другого персонажа прямо посреди кадра [51:30].

## ⚖️ Безопасность и будущее: К полнометражным AI-фильмам
[[JUMP:37:41]]

Вопрос этики и безопасности (alignment) стоит в Runway на первом месте. У компании есть выделенная команда, занимающаяся качеством и контентом [38:07]. Германидис подчеркивает, что они используют постепенный цикл развертывания (Discord — закрытое тестирование — широкий доступ), чтобы отслеживать потенциальные злоупотребления, такие как дипфейки.

Для оценки качества видео Runway использует как количественные метрики (соответствие текста и изображения через CLIP [39:53]), так и качественную оценку. По мнению гостя, автоматические метрики часто упускают нюансы, поэтому важную роль играет «глаз фотографа» — ручная проверка композиции и деталей специалистами [42:12].

Глобальное видение Runway — создание **нарративно связного полнометражного фильма**, полностью сгенерированного ИИ [58:43]. Это включает в себя не только видеоряд, но и диалоги, звуковое оформление и музыку. Путь к этой цели лежит через постоянные эксперименты: еженедельно команда тренирует десятки моделей, большинство из которых оказываются неудачными, прежде чем совершить очередной прорыв [57:31].

В подтверждение серьезности своих намерений компания организовала первый кинофестиваль AI-фильмов в Нью-Йорке и Сан-Франциско, демонстрируя, что произведения, созданные с помощью нейросетей, становятся «гражданами первого класса» в мире искусства [44:08].