Крис Валенсуэла: «Мы находимся в фазе „зеркала с памятью“ для ИИ-видео»

Eye on AI 1,8 тыс. 45 мин 4 мин 03.03.2024
Главное

В интервью с Крисом Валенсуэлой, сооснователем и генеральным директором компании Runway, обсуждается трансформация творческих индустрий под влиянием генеративного ИИ. Валенсуэла, стоявший у истоков создания модели Stable Diffusion, рассказывает о переходе от статических изображений к видеогенерации, концепции «моделей мира» (World Models) и о том, почему современные ИИ-инструменты — это не замена художнику, а «кисти нового поколения».

🎨 От Stable Diffusion к Runway: История создания 1:50

Крис Валенсуэла, выходец из Чили, переехал в Нью-Йорк семь лет назад для обучения в престижной художественной школе Tish при Нью-Йоркском университете (NYU) . Именно там в 2018 году родилась компания Runway. По словам Криса, его целью всегда было создание мощных инструментов для художников, дизайнеров и кинематографистов, которые сделали бы сложные технологии доступными для творчества .

Валенсуэла отмечает ключевые вехи развития технологий:

В отличие от ранних версий, текущие флагманские продукты Runway — видеомодели Gen-1 и Gen-2 — являются проприетарными (закрытыми) и строятся на собственных разработках компании, а не на сторонних API . На текущий момент около 85% команды Runway составляют инженеры-исследователи .

📽️ Технология видеогенерации: Вызов времени 13:51

Главная сложность при переходе от генерации картинок к видео, по мнению Валенсуэлы, — это временная согласованность (temporal consistency). Модель должна понимать, как объекты сохраняют свою форму и свойства от кадра к кадру .

Основные тезисы Валенсуэлы о видео-ИИ:

  1. Архитектура: Видеомодели Runway используют комбинацию диффузионных процессов и трансформеров .
  2. Генеративные «автозаводы»: Крис сравнивает создание моделей с производством автомобилей: у каждой компании свои конвейеры и логистика, поэтому результаты Google, OpenAI (модель Sora) и Runway различаются по «характеру» .
  3. Длительность: Текущие возможности Runway позволяют генерировать ролики до 18 секунд, но это ограничение постоянно расширяется .
  4. Галлюцинации: Психоделические и «плывущие» видео, часто встречающиеся в сети, Валенсуэла называет вопросом художественного выбора или побочным эффектом ранних техник, подчеркивая, что Runway стремится к реализму .

🌍 Концепция General World Models 19:18

Одним из самых амбициозных направлений Runway является разработка General World Models (Общих моделей мира) . В отличие от систем для беспилотных автомобилей, которые решают узкую задачу навигации, модели мира в понимании Runway должны изучать физические законы реальности через данные.

Крис утверждает, что если тренировать модель на достаточно больших объемах видео, она начинает интуитивно «понимать» гравитацию и механику столкновений, не имея жестко прописанного программного кода . По аналогии с языковыми моделями, предсказывающими следующее слово, видеомодели будущего будут предсказывать следующее состояние визуального мира, учитывая окклюзию (скрытие объектов) и движение .

⚡ Вычислительные мощности и масштабирование 21:31

Обучение современных видеомоделей требует колоссальных ресурсов. Валенсуэла признает, что вычислительные мощности — это одна из главных статей расходов .

🎨 Новая форма искусства: ИИ как кисть 26:08

Валенсуэла убежден, что мы находимся в фазе «зеркала с памятью» (термин, которым 150 лет назад описывали первые дагерротипы, не имея слова «фотография») . Он считает, что ИИ породит совершенно новый вид медиа, для которого у нас пока нет названия .

Кто использует Runway сегодня?

Компания активно поддерживает сообщество через AI Film Festival, который проходит в Нью-Йорке и Лос-Анджелесе. В 2024 году на фестиваль было подано тысячи заявок со всего мира .

🛠️ Интерфейс и контроль над творчеством 35:32

Для управления процессом Runway предлагает несколько методов, выходящих за рамки простого текстового запроса (промпта) :

  1. Text-to-Video: Описание сцены словами.
  2. Image-to-Video: Использование изображения как референса для анимации.
  3. Motion Brush: Инструмент, позволяющий буквально «закрасить» кистью область на картинке, указав направление её движения .
  4. Fine-tuning: Корпоративные клиенты могут дообучать модели на своих данных, чтобы сохранять уникальный художественный стиль или специфические объекты .

В завершение беседы Валенсуэла призывает не бояться технологий. Он напоминает, что когда-то люди боялись камер и даже красок, но «технология сама по себе ничего не создает — создают люди, использующие её как инструмент» .

💬 Цитаты

«Технология сама по себе ничего не создает — создают люди, использующие её как инструмент.»

Крис Валенсуэла 43:57

«Мы все строим на плечах гигантов, используя наработки открытого кода, накопленные за десятилетия.»

Крис Валенсуэла 04:16
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Temporal Consistency
Способность видеомодели сохранять визуальную логику и детали объекта неизменными на протяжении всего видеоряда.
Latent Diffusion
Техника генерации изображений в скрытом (латентном) пространстве, которая легла в основу Stable Diffusion.
World Models
Системы ИИ, которые обучаются внутреннему представлению физических законов и взаимодействий объектов в пространстве.
📊 Цифры
🗓 Хронология
  1. 2015 Крис Валенсуэла начинает интересоваться нейронными сетями.
  2. 2018 Основание компании Runway в Нью-Йорке.
  3. 2021-2022 Публикация работы по Latent Diffusion и запуск Stable Diffusion.
  4. 2023 Выпуск видеомоделей Gen-1 и Gen-2.
⚖️ Другая сторона
Искусственный интеллект Runway Stable Diffusion Крис Валенсуэла Gen-2 World Models