Крис Валенсуэла: «Мы находимся в фазе „зеркала с памятью“ для ИИ-видео»

В интервью с Крисом Валенсуэлой, сооснователем и генеральным директором компании Runway, обсуждается трансформация творческих индустрий под влиянием генеративного ИИ. Валенсуэла, стоявший у истоков создания модели Stable Diffusion, рассказывает о переходе от статических изображений к видеогенерации, концепции «моделей мира» (World Models) и о том, почему современные ИИ-инструменты — это не замена художнику, а «кисти нового поколения».

🎨 От Stable Diffusion к Runway: История создания 1:50

Крис Валенсуэла, выходец из Чили, переехал в Нью-Йорк семь лет назад для обучения в престижной художественной школе Tish при Нью-Йоркском университете (NYU) . Именно там в 2018 году родилась компания Runway. По словам Криса, его целью всегда было создание мощных инструментов для художников, дизайнеров и кинематографистов, которые сделали бы сложные технологии доступными для творчества .

Валенсуэла отмечает ключевые вехи развития технологий:

Сотрудничество: Работа велась совместно с Мюнхенским университетом Людвига-Максимилиана в Германии .
Latent Diffusion: Исследовательская работа по этой теме легла в основу алгоритмов, которые позже превратились в Stable Diffusion .
Open Source: Stable Diffusion изначально была выпущена как открытая модель, что позволило сформировать вокруг неё самое масштабное сообщество в сфере генерации изображений .

В отличие от ранних версий, текущие флагманские продукты Runway — видеомодели Gen-1 и Gen-2 — являются проприетарными (закрытыми) и строятся на собственных разработках компании, а не на сторонних API . На текущий момент около 85% команды Runway составляют инженеры-исследователи .

📽️ Технология видеогенерации: Вызов времени 13:51

Главная сложность при переходе от генерации картинок к видео, по мнению Валенсуэлы, — это временная согласованность (temporal consistency). Модель должна понимать, как объекты сохраняют свою форму и свойства от кадра к кадру .

Основные тезисы Валенсуэлы о видео-ИИ:

Архитектура: Видеомодели Runway используют комбинацию диффузионных процессов и трансформеров .
Генеративные «автозаводы»: Крис сравнивает создание моделей с производством автомобилей: у каждой компании свои конвейеры и логистика, поэтому результаты Google, OpenAI (модель Sora) и Runway различаются по «характеру» .
Длительность: Текущие возможности Runway позволяют генерировать ролики до 18 секунд, но это ограничение постоянно расширяется .
Галлюцинации: Психоделические и «плывущие» видео, часто встречающиеся в сети, Валенсуэла называет вопросом художественного выбора или побочным эффектом ранних техник, подчеркивая, что Runway стремится к реализму .

🌍 Концепция General World Models 19:18

Одним из самых амбициозных направлений Runway является разработка General World Models (Общих моделей мира) . В отличие от систем для беспилотных автомобилей, которые решают узкую задачу навигации, модели мира в понимании Runway должны изучать физические законы реальности через данные.

Крис утверждает, что если тренировать модель на достаточно больших объемах видео, она начинает интуитивно «понимать» гравитацию и механику столкновений, не имея жестко прописанного программного кода . По аналогии с языковыми моделями, предсказывающими следующее слово, видеомодели будущего будут предсказывать следующее состояние визуального мира, учитывая окклюзию (скрытие объектов) и движение .

⚡ Вычислительные мощности и масштабирование 21:31

Обучение современных видеомоделей требует колоссальных ресурсов. Валенсуэла признает, что вычислительные мощности — это одна из главных статей расходов .

Оборудование: Runway использует тысячи (иногда десятки тысяч) графических процессоров (GPU), в основном модели NVIDIA H100 и A100 .
Масштаб: Параметры моделей исчисляются миллиардами, а качество напрямую коррелирует с объемом данных и вычислительным временем .
Оценка качества: Несмотря на наличие бенчмарков, Валенсуэла считает лучшим мерилом успеха мнение профессиональных кинематографистов: «Если человеку нравится визуальный результат, значит, мы работаем не зря» .

🎨 Новая форма искусства: ИИ как кисть 26:08

Валенсуэла убежден, что мы находимся в фазе «зеркала с памятью» (термин, которым 150 лет назад описывали первые дагерротипы, не имея слова «фотография») . Он считает, что ИИ породит совершенно новый вид медиа, для которого у нас пока нет названия .

Кто использует Runway сегодня?

Профессионалы: Голливудские продакшены, рекламные агентства и музыканты (для создания визуалов к турам и клипам) .
Массовый рынок: Сообщество пользователей Runway уже превышает несколько миллионов человек .
Обучение: Крис предполагает, что в будущем школы искусств будут преподавать дисциплины, основанные на взаимодействии с алгоритмами .

Компания активно поддерживает сообщество через AI Film Festival, который проходит в Нью-Йорке и Лос-Анджелесе. В 2024 году на фестиваль было подано тысячи заявок со всего мира .

🛠️ Интерфейс и контроль над творчеством 35:32

Для управления процессом Runway предлагает несколько методов, выходящих за рамки простого текстового запроса (промпта) :

Text-to-Video: Описание сцены словами.
Image-to-Video: Использование изображения как референса для анимации.
Motion Brush: Инструмент, позволяющий буквально «закрасить» кистью область на картинке, указав направление её движения .
Fine-tuning: Корпоративные клиенты могут дообучать модели на своих данных, чтобы сохранять уникальный художественный стиль или специфические объекты .

В завершение беседы Валенсуэла призывает не бояться технологий. Он напоминает, что когда-то люди боялись камер и даже красок, но «технология сама по себе ничего не создает — создают люди, использующие её как инструмент» .