# Крис Валенсуэла: «Мы находимся в фазе „зеркала с памятью“ для ИИ-видео»

Источник: https://www.youtube.com/watch?v=H8ziuoZEHYk
Канал: Eye on AI
Опубликовано: 03.03.2024

---

В интервью с Крисом Валенсуэлой, сооснователем и генеральным директором компании Runway, обсуждается трансформация творческих индустрий под влиянием генеративного ИИ. Валенсуэла, стоявший у истоков создания модели Stable Diffusion, рассказывает о переходе от статических изображений к видеогенерации, концепции «моделей мира» (World Models) и о том, почему современные ИИ-инструменты — это не замена художнику, а «кисти нового поколения».

## 🎨 От Stable Diffusion к Runway: История создания
[[JUMP:01:50]]

Крис Валенсуэла, выходец из Чили, переехал в Нью-Йорк семь лет назад для обучения в престижной художественной школе Tish при Нью-Йоркском университете (NYU) [02:04]. Именно там в 2018 году родилась компания Runway. По словам Криса, его целью всегда было создание мощных инструментов для художников, дизайнеров и кинематографистов, которые сделали бы сложные технологии доступными для творчества [02:27].

Валенсуэла отмечает ключевые вехи развития технологий:

*   **Сотрудничество:** Работа велась совместно с Мюнхенским университетом Людвига-Максимилиана в Германии [04:55].
*   **Latent Diffusion:** Исследовательская работа по этой теме легла в основу алгоритмов, которые позже превратились в **Stable Diffusion** [05:21].
*   **Open Source:** Stable Diffusion изначально была выпущена как открытая модель, что позволило сформировать вокруг неё самое масштабное сообщество в сфере генерации изображений [09:47].

В отличие от ранних версий, текущие флагманские продукты Runway — видеомодели **Gen-1** и **Gen-2** — являются проприетарными (закрытыми) и строятся на собственных разработках компании, а не на сторонних API [10:52]. На текущий момент около 85% команды Runway составляют инженеры-исследователи [12:56].

## 📽️ Технология видеогенерации: Вызов времени
[[JUMP:13:51]]

Главная сложность при переходе от генерации картинок к видео, по мнению Валенсуэлы, — это **временная согласованность** (temporal consistency). Модель должна понимать, как объекты сохраняют свою форму и свойства от кадра к кадру [14:06].

Основные тезисы Валенсуэлы о видео-ИИ:

1.  **Архитектура:** Видеомодели Runway используют комбинацию диффузионных процессов и трансформеров [18:08].
2.  **Генеративные «автозаводы»:** Крис сравнивает создание моделей с производством автомобилей: у каждой компании свои конвейеры и логистика, поэтому результаты Google, OpenAI (модель Sora) и Runway различаются по «характеру» [14:46].
3.  **Длительность:** Текущие возможности Runway позволяют генерировать ролики до 18 секунд, но это ограничение постоянно расширяется [15:55].
4.  **Галлюцинации:** Психоделические и «плывущие» видео, часто встречающиеся в сети, Валенсуэла называет вопросом художественного выбора или побочным эффектом ранних техник, подчеркивая, что Runway стремится к реализму [17:40].

## 🌍 Концепция General World Models
[[JUMP:19:18]]

Одним из самых амбициозных направлений Runway является разработка **General World Models** (Общих моделей мира) [19:18]. В отличие от систем для беспилотных автомобилей, которые решают узкую задачу навигации, модели мира в понимании Runway должны изучать физические законы реальности через данные.

Крис утверждает, что если тренировать модель на достаточно больших объемах видео, она начинает интуитивно «понимать» гравитацию и механику столкновений, не имея жестко прописанного программного кода [20:23]. По аналогии с языковыми моделями, предсказывающими следующее слово, видеомодели будущего будут предсказывать следующее состояние визуального мира, учитывая окклюзию (скрытие объектов) и движение [20:50].

## ⚡ Вычислительные мощности и масштабирование
[[JUMP:21:31]]

Обучение современных видеомоделей требует колоссальных ресурсов. Валенсуэла признает, что вычислительные мощности — это одна из главных статей расходов [21:43].

*   **Оборудование:** Runway использует тысячи (иногда десятки тысяч) графических процессоров (GPU), в основном модели **NVIDIA H100** и **A100** [25:39].
*   **Масштаб:** Параметры моделей исчисляются миллиардами, а качество напрямую коррелирует с объемом данных и вычислительным временем [25:01].
*   **Оценка качества:** Несмотря на наличие бенчмарков, Валенсуэла считает лучшим мерилом успеха мнение профессиональных кинематографистов: «Если человеку нравится визуальный результат, значит, мы работаем не зря» [24:23].

## 🎨 Новая форма искусства: ИИ как кисть
[[JUMP:26:08]]

Валенсуэла убежден, что мы находимся в фазе «зеркала с памятью» (термин, которым 150 лет назад описывали первые дагерротипы, не имея слова «фотография») [34:15]. Он считает, что ИИ породит совершенно новый вид медиа, для которого у нас пока нет названия [26:34].

Кто использует Runway сегодня?

*   **Профессионалы:** Голливудские продакшены, рекламные агентства и музыканты (для создания визуалов к турам и клипам) [37:59].
*   **Массовый рынок:** Сообщество пользователей Runway уже превышает несколько миллионов человек [38:38].
*   **Обучение:** Крис предполагает, что в будущем школы искусств будут преподавать дисциплины, основанные на взаимодействии с алгоритмами [26:34].

Компания активно поддерживает сообщество через **AI Film Festival**, который проходит в Нью-Йорке и Лос-Анджелесе. В 2024 году на фестиваль было подано тысячи заявок со всего мира [41:23].

## 🛠️ Интерфейс и контроль над творчеством
[[JUMP:35:32]]

Для управления процессом Runway предлагает несколько методов, выходящих за рамки простого текстового запроса (промпта) [35:45]:

1.  **Text-to-Video:** Описание сцены словами.
2.  **Image-to-Video:** Использование изображения как референса для анимации.
3.  **Motion Brush:** Инструмент, позволяющий буквально «закрасить» кистью область на картинке, указав направление её движения [35:59].
4.  **Fine-tuning:** Корпоративные клиенты могут дообучать модели на своих данных, чтобы сохранять уникальный художественный стиль или специфические объекты [29:33].

В завершение беседы Валенсуэла призывает не бояться технологий. Он напоминает, что когда-то люди боялись камер и даже красок, но «технология сама по себе ничего не создает — создают люди, использующие её как инструмент» [43:57].