В интервью с Крисом Валенсуэлой, сооснователем и генеральным директором компании Runway, обсуждается трансформация творческих индустрий под влиянием генеративного ИИ. Валенсуэла, стоявший у истоков создания модели Stable Diffusion, рассказывает о переходе от статических изображений к видеогенерации, концепции «моделей мира» (World Models) и о том, почему современные ИИ-инструменты — это не замена художнику, а «кисти нового поколения».
🎨 От Stable Diffusion к Runway: История создания 1:50
Крис Валенсуэла, выходец из Чили, переехал в Нью-Йорк семь лет назад для обучения в престижной художественной школе Tish при Нью-Йоркском университете (NYU) . Именно там в 2018 году родилась компания Runway. По словам Криса, его целью всегда было создание мощных инструментов для художников, дизайнеров и кинематографистов, которые сделали бы сложные технологии доступными для творчества .
Валенсуэла отмечает ключевые вехи развития технологий:
- Сотрудничество: Работа велась совместно с Мюнхенским университетом Людвига-Максимилиана в Германии .
- Latent Diffusion: Исследовательская работа по этой теме легла в основу алгоритмов, которые позже превратились в Stable Diffusion .
- Open Source: Stable Diffusion изначально была выпущена как открытая модель, что позволило сформировать вокруг неё самое масштабное сообщество в сфере генерации изображений .
В отличие от ранних версий, текущие флагманские продукты Runway — видеомодели Gen-1 и Gen-2 — являются проприетарными (закрытыми) и строятся на собственных разработках компании, а не на сторонних API . На текущий момент около 85% команды Runway составляют инженеры-исследователи .
📽️ Технология видеогенерации: Вызов времени 13:51
Главная сложность при переходе от генерации картинок к видео, по мнению Валенсуэлы, — это временная согласованность (temporal consistency). Модель должна понимать, как объекты сохраняют свою форму и свойства от кадра к кадру .
Основные тезисы Валенсуэлы о видео-ИИ:
- Архитектура: Видеомодели Runway используют комбинацию диффузионных процессов и трансформеров .
- Генеративные «автозаводы»: Крис сравнивает создание моделей с производством автомобилей: у каждой компании свои конвейеры и логистика, поэтому результаты Google, OpenAI (модель Sora) и Runway различаются по «характеру» .
- Длительность: Текущие возможности Runway позволяют генерировать ролики до 18 секунд, но это ограничение постоянно расширяется .
- Галлюцинации: Психоделические и «плывущие» видео, часто встречающиеся в сети, Валенсуэла называет вопросом художественного выбора или побочным эффектом ранних техник, подчеркивая, что Runway стремится к реализму .
🌍 Концепция General World Models 19:18
Одним из самых амбициозных направлений Runway является разработка General World Models (Общих моделей мира) . В отличие от систем для беспилотных автомобилей, которые решают узкую задачу навигации, модели мира в понимании Runway должны изучать физические законы реальности через данные.
Крис утверждает, что если тренировать модель на достаточно больших объемах видео, она начинает интуитивно «понимать» гравитацию и механику столкновений, не имея жестко прописанного программного кода . По аналогии с языковыми моделями, предсказывающими следующее слово, видеомодели будущего будут предсказывать следующее состояние визуального мира, учитывая окклюзию (скрытие объектов) и движение .
⚡ Вычислительные мощности и масштабирование 21:31
Обучение современных видеомоделей требует колоссальных ресурсов. Валенсуэла признает, что вычислительные мощности — это одна из главных статей расходов .
- Оборудование: Runway использует тысячи (иногда десятки тысяч) графических процессоров (GPU), в основном модели NVIDIA H100 и A100 .
- Масштаб: Параметры моделей исчисляются миллиардами, а качество напрямую коррелирует с объемом данных и вычислительным временем .
- Оценка качества: Несмотря на наличие бенчмарков, Валенсуэла считает лучшим мерилом успеха мнение профессиональных кинематографистов: «Если человеку нравится визуальный результат, значит, мы работаем не зря» .
🎨 Новая форма искусства: ИИ как кисть 26:08
Валенсуэла убежден, что мы находимся в фазе «зеркала с памятью» (термин, которым 150 лет назад описывали первые дагерротипы, не имея слова «фотография») . Он считает, что ИИ породит совершенно новый вид медиа, для которого у нас пока нет названия .
Кто использует Runway сегодня?
- Профессионалы: Голливудские продакшены, рекламные агентства и музыканты (для создания визуалов к турам и клипам) .
- Массовый рынок: Сообщество пользователей Runway уже превышает несколько миллионов человек .
- Обучение: Крис предполагает, что в будущем школы искусств будут преподавать дисциплины, основанные на взаимодействии с алгоритмами .
Компания активно поддерживает сообщество через AI Film Festival, который проходит в Нью-Йорке и Лос-Анджелесе. В 2024 году на фестиваль было подано тысячи заявок со всего мира .
🛠️ Интерфейс и контроль над творчеством 35:32
Для управления процессом Runway предлагает несколько методов, выходящих за рамки простого текстового запроса (промпта) :
- Text-to-Video: Описание сцены словами.
- Image-to-Video: Использование изображения как референса для анимации.
- Motion Brush: Инструмент, позволяющий буквально «закрасить» кистью область на картинке, указав направление её движения .
- Fine-tuning: Корпоративные клиенты могут дообучать модели на своих данных, чтобы сохранять уникальный художественный стиль или специфические объекты .
В завершение беседы Валенсуэла призывает не бояться технологий. Он напоминает, что когда-то люди боялись камер и даже красок, но «технология сама по себе ничего не создает — создают люди, использующие её как инструмент» .