В мире генеративного искусства произошел тектонический сдвиг: видеопроизводство, традиционно считавшееся одной из самых сложных и дорогостоящих сфер, переходит в эру автоматизации. Директор по технологиям и сооснователь компании Runway Анастасис Германидис в беседе с Сэмом Чаррингтоном обсуждает эволюцию нейросетевых моделей от редактирования отдельных кадров до полноценной генерации видео по текстовому описанию с помощью систем Gen-1 и Gen-2.
🎨 От академических опытов до голливудских спецэффектов 0:00
Путь Анастасиса Германидиса в область искусственного интеллекта начался на стыке компьютерных наук и искусства. Еще учась в старшей школе, он изучал нейронные сети, хотя в то время фаворитом индустрии считались метод опорных векторов (SVM) . Несмотря на то, что его первые попытки генерировать изображения с помощью многослойных перцептронов 10 лет назад не увенчались успехом, он продолжал следить за областью, дождавшись «момента AlexNet» и триумфа ImageNet в 2012 году .
Основатели Runway познакомились в магистратуре Нью-Йоркского университета на программе «Искусство и технологии». Изначально их целью было упростить доступ художникам к сложным ML-инструментам. В те годы творцам приходилось тратить 90% времени на настройку зависимостей, CUDA и кудин (cuDNN), прежде чем они могли приступить к творчеству .
Первые шаги Runway были связаны с созданием «хаба» для существующих моделей:
- Pix2Pix: модель условной генерации, позволявшая превращать карты глубины или семантические маски в фотореалистичные изображения .
- GANs (генеративно-состязательные сети): использовались для синтеза новых лиц и объектов.
- Style Transfer: перенос художественного стиля одного изображения на другое.
По словам Германидиса, Runway быстро переросла стадию простого интерфейса для чужих моделей . Команда осознала, что использование сторонних API ограничивает их в качестве и степени контроля, что привело к созданию собственного исследовательского подразделения для построения «полноценного стека» (full stack) AI-технологий .
🎬 Революция в видеопроизводстве: Кейс «Всё везде и сразу» 8:44
Одним из самых трудоемких процессов в кинопроизводстве является ротоскопирование — отделение объекта от фона. Традиционно это требует покадровой ручной отрисовки масок. Инструмент Runway под названием «Green Screen» автоматизирует этот процесс, превращая пять часов рутины в пять минут работы алгоритма .
Практическая ценность технологий Runway подтвердилась на самом высоком уровне:
- The Late Show со Стивеном Кольбером: команда графиков использует Runway для создания скетчей «день в день», когда идея рождается в полдень, а ролик должен быть в эфире вечером .
- Фильм «Всё везде и сразу»: Германидис рассказал, что команда спецэффектов оскароносной картины состояла всего из 10 человек вместо сотен . Это стало возможным благодаря использованию Runway для ускорения итераций и автоматизации сегментации видео контента. О том, что фильм создавался с помощью их инструментов, основатели Runway узнали случайно из треда в Twitter одного из режиссеров .
🧠 Gen-1: Видео на основе видео и магия глубины 15:33
Первая крупная собственная модель Runway, Gen-1, сфокусирована на трансформации существующего видеопотока. Главная инновация здесь — использование карт глубины (depth maps) для обеспечения структурной целостности.
Германидис отмечает следующие ключевые характеристики Gen-1:
- Контроль через глубину: Модель берет структуру исходного видео и накладывает на неё новый стиль или персонажа, используя оценку глубины как связующее звено .
- Гибкие настройки: Пользователь может регулировать степень размытия карты глубины. Чем больше размытие, тем меньше модель следует исходнику, проявляя больше «воображения» в деталях движения .
- Темпоральная связность: В отличие от простой обработки кадров по отдельности, Gen-1 использует внутренние временные связи и механизмы внимания (temporal attention), чтобы избежать мерцания и артефактов между кадрами .
Модель поддерживает несколько режимов, таких как Render Mode (превращение простых 3D-болванок из Blender в фотореалистичные сцены) и Storyboard Mode, где стопка книг на столе может превратиться в панораму города через объектив смартфона .
🚀 Gen-2: Генерация из чистого листа 46:12
Спустя всего несколько недель после выхода Gen-1, Runway анонсировала Gen-2 — модель, способную генерировать видео с нуля на основе текстового описания (Text-to-Video).
Основные отличия и возможности Gen-2:
- Отсутствие исходника: Теперь пользователю не нужно снимать видео-референс. Достаточно написать «панда ведет машину», чтобы получить готовый ролик .
- Мультимодальное кондиционирование: Пользователь может одновременно подать текстовое описание и изображение. Например, задать текстовое описание экшена и фото конкретного персонажа, чтобы получить последовательную серию кадров с сохранением внешности героя .
- Масштабирование: Исследователи обнаружили, что для работы без видео-референса требуется значительно более крупная модель. Это помогло решить проблему «структурного распада», когда в ранних тестах идущий человек мог превратиться в другого персонажа прямо посреди кадра .
⚖️ Безопасность и будущее: К полнометражным AI-фильмам 37:41
Вопрос этики и безопасности (alignment) стоит в Runway на первом месте. У компании есть выделенная команда, занимающаяся качеством и контентом . Германидис подчеркивает, что они используют постепенный цикл развертывания (Discord — закрытое тестирование — широкий доступ), чтобы отслеживать потенциальные злоупотребления, такие как дипфейки.
Для оценки качества видео Runway использует как количественные метрики (соответствие текста и изображения через CLIP ), так и качественную оценку. По мнению гостя, автоматические метрики часто упускают нюансы, поэтому важную роль играет «глаз фотографа» — ручная проверка композиции и деталей специалистами .
Глобальное видение Runway — создание нарративно связного полнометражного фильма, полностью сгенерированного ИИ . Это включает в себя не только видеоряд, но и диалоги, звуковое оформление и музыку. Путь к этой цели лежит через постоянные эксперименты: еженедельно команда тренирует десятки моделей, большинство из которых оказываются неудачными, прежде чем совершить очередной прорыв .
В подтверждение серьезности своих намерений компания организовала первый кинофестиваль AI-фильмов в Нью-Йорке и Сан-Франциско, демонстрируя, что произведения, созданные с помощью нейросетей, становятся «гражданами первого класса» в мире искусства .