Анастасис Германидис: «Видеомодели симулируют законы физики из данных»

Сфера генеративного искусственного интеллекта переживает масштабный технологический сдвиг: от создания простых статичных изображений индустрия перешла к симуляции комплексных динамических миров. В новом выпуске подкаста «The Cognitive Revolution» ведущий Натан Лабенц и креативный директор студии WeAreArk Стивен Паркер обсуждают будущее видеогенерации с техническим директором Runway Анастасисом Германидисом. В центре дискуссии — запуск флагманской ИИ-модели Gen-3, концепция «генеральных моделей мира» (General World Models) и то, как независимая команда успешно конкурирует с триллионными технологическими корпорациями за счет правильной работы с данными.

🌍 Видеогенерация как моделирование мира и путь к AGI 3:40

Человеческое восприятие мира фундаментально завязано на визуальную модальность. По мнению Анастасиса Германидиса, огромное количество повседневных человеческих задач можно сформулировать и описать именно через видеоформат. Обучаясь на колоссальных объемах видеоданных, современные нейросети получают мощные внутренние репрезентации трехмерного пространства, понимание человеческой деятельности и физических процессов.

Технический директор Runway выдвигает концептуальный тезис: любое описание мира — будь то текст или изображение — является лишь прокси-метрикой для реальности. Однако видео, по его мнению, содержит в себе гораздо меньше когнитивных искажений и предвзятости (biases), чем текст, на котором обучаются классические большие языковые модели (LLM). Текст фиксирует лишь ничтожно малую часть того, что действительно волнует людей и формирует их опыт, в то время как видеоряд передает физическую суть вещей более полно.

В индустрии ИИ ведутся споры о том, достаточно ли обычного плоского видео для полноценного понимания физики нашего мира, или же исследователям необходимо собирать массивные датасеты с трехмерными облаками точек (3D Point Grids). Анастасис Германидис утверждает, что двумерных видеоданных вполне достаточно для извлечения полноценных 3D-знаний. Модели нового поколения, такие как Gen-3, демонстрируют поразительную трехмерную консистентность объектов. Например, при симуляции движения камеры в определенном направлении объекты в кадре сохраняют свои пропорции и геометрию так, как это происходило бы в реальном пространстве.

Преимущество видео заключается в двух факторах:

Изобилие и доступность видеоконтента в масштабах интернета.
Способность глубоких нейросетей самостоятельно выводить правила 3D-геометрии из 2D-кадров.

В то же время чистые 3D-данные чрезвычайно сложно собирать в промышленных масштабах, из-за чего классическое компьютерное зрение в области 3D развивалось значительно медленнее.

🧪 Эмерджентные свойства масштабирования: симуляция физики 6:40

В дискуссии упоминается позиция компании OpenAI, которая ранее заявляла, что такие свойства видеомоделей, как постоянство объектов (object permanence) и интуитивная физика, являются исключительно «продуктом чистого масштабирования» вычислений. Анастасис Германидис полностью разделяет этот взгляд, подкрепляя его практическим опытом Runway. При сравнении модели Gen-2, выпущенной более года назад, с актуальной Gen-3 фиксируется качественный скачок в возможностях симуляции.

Среди наиболее удивительных эмерджентных (внезапно проявившихся с ростом масштаба) свойств моделей разработчики Runway выделяют способность реалистично симулировать поведение жидкостей. Модель Gen-3 способна точно визуализировать физическое взаимодействие сред, не имея при этом никаких заложенных человеком алгоритмов или математических формул, описывающих гидродинамику.

В качестве примера Германидис приводит внутренние тесты с текстовыми подсказками (промптами):

Симуляция кипящей кастрюли (Boiling Pot), в которую внезапно выливают холодную воду.
Взаимодействие всплесков, пара и изменения температуры среды.

Эти тесты показывают, что нейросеть самостоятельно вывела законы физики из визуальных данных. В архитектуру не закладывались жесткие индуктивные смещения (inductive priors). При этом разработчики признают, что физика модели еще далека от идеала. Модель все еще может ошибаться в базовых вещах — например, реалистично передать траекторию прыгающего мяча (Bouncing Ball) и действие гравитации для нее бывает сложно. Тем не менее, экстраполируя темпы развития от Gen-2 к Gen-3, технический директор Runway не видит фундаментальных препятствий для того, чтобы в будущем модель полностью освоила точное понимание физического мира.

🏗️ Данные против архитектуры: секрет эффективности Runway 8:40

В академической среде идет непрерывная дискуссия о важности нейросетевых архитектур. Наблюдается определенная конвергенция индустрии вокруг архитектуры Transformers и сверточных сетей (Convnets). Однако Анастасис Германидис считает, что современная наука слишком сильно сфокусирована именно на поиске новых архитектур, незаслуженно обделяя вниманием методологию подготовки данных и задачи обучения (data objectives). Если изучить доклады на последних конференциях по компьютерному зрению, диспропорция в сторону обсуждения архитектурных блоков становится очевидной.

Ведущий Натан Лабенц поинтересовался мнением гостя о новой архитектуре KAN (Kolmogorov-Arnold Networks), разработанной группой Макса Тегмарка в MIT. Эта архитектура позволяет сети самостоятельно обучаться функциям активации и потенциально способна эффективно кодировать физические операторы (например, уравнения параболы для гравитации).

Анастасис Германидис относится к подобным академическим прорывам с осторожным скептицизмом. Он отмечает, что авторы новых архитектур часто некорректно сравнивают свои модели со стандартными решениями. Например, они сопоставляют результаты по количеству итераций обучения, но полностью игнорируют тот факт, что новая модель может требовать значительно больше вычислительной мощности (compute per forward pass) на один проход сети. По его опыту, альтернативные механизмы (вроде линейного внимания) редко доказывают свое превосходство на реальном промышленном масштабе.

Вместо искусственного усложнения моделей и внедрения жестких математических ограничений Runway делает ставку на философию, созвучную идеям Ильи Суцкевера: модели просто «хотят учиться». Главная задача инженеров — не мешать им, обеспечивая высочайшее качество обучающих данных, выверенную рутину тренировки и масштаб, а не пытаться перехитрить систему избыточным проектированием.

В подтверждение этого упоминается гипотеза платонического представления (Platonic Representation Hypothesis). Согласно этой теории, по мере масштабирования ИИ-модели разных модальностей (текст, зрение, звук) постепенно сходятся к единому, общему представлению о концептах реального мира. Они находят наиболее простые и эффективные математические решения задач. Германидис согласен с этой гипотезой и считает, что видео в данном контексте является супер-модальностью, которая шире текста и способна обучить ИИ вещам, которые принципиально невозможно описать словами.

🎙️ Мультимодальный баланс: интеграция звука и появление «скрытых агентов» 14:50

Важным этапом эволюции систем ИИ от Runway станет полноценное внедрение звуковой модальности. В реальном видеоряде зрение и звук неотделимы друг от друга. Обучение нейросетей на смешанных токенах (mixed token training) — логичный следующий шаг. По словам Анастасиса, Runway обязательно займется генерацией синхронного аудиоряда в будущем.

До текущего момента фокус компании был смещен исключительно на визуальное качество, поскольку потенциал его улучшения еще далеко не исчерпан. Однако в перспективе идеальная генеративная модель должна создавать не просто картинку, а комплексную среду, где каждый кадр имеет точное звуковое соответствие.

С увеличением хронометража генерируемых видеороликов возникает другой интересный феномен — появление так называемых «прото-агентов» внутри модели. Если нейросеть генерирует длинное эгоцентрическое видео (например, «один день из жизни человека»), ей для точного предсказания следующих кадров требуется не просто копировать текстуры, а выстраивать внутреннюю логику поведения персонажа. Модель должна «понимать», какое действие персонаж совершит дальше, как он отреагирует на физическое препятствие или изменение обстановки.

Германидис считает вполне вероятным, что при достижении определенного масштаба внутри видеомоделей начнут зарождаться латентные способности к рассуждению (reasoning capabilities). Это открывает прямую дорогу к созданию интерактивных медиа, где генеративные модели выступают в роли принципиально новых игровых или рендеринговых движков. Пользователь сможет не просто смотреть сгенерированный ролик, а управлять им в реальном времени, меняя траекторию движения и сюжет.

🎨 Философия Runway: почему компания отказывается от ярлыка «лаборатории AGI» 18:39

Несмотря на глубокую технологическую базу, Runway официально не позиционирует себя как лаборатория по созданию сильного искусственного интеллекта (AGI). Анастасис Германидис признается, что само определение AGI кажется ему крайне размытым и нечетким. Например, классический тест Тьюринга, по его мнению, слишком шумный и субъективный, так как он оценивает не объективный интеллект системы, а лишь то, как этот интеллект воспринимается конкретным человеком.

Философия Runway строится вокруг концепции расширения человеческих возможностей и усиления креативности (augmenting human intelligence and creativity). Вместо абстрактной погони за цифровым разумом, команда сфокусирована на построении максимально точных симуляторов физической реальности. По мнению Германидиса, этот процесс непрерывен: у реальности бесконечный объем сложности и детализации на разных уровнях абстракции. Концепция AGI ошибочно предполагает наличие некой финальной точки, после которой интеллект считается созданным. В Runway же верят в перманентную эволюцию технологий, меняющих саму суть человеческой природы по мере их интеграции в культуру.

Существует мнение, что создание точных симуляторов физического мира противоречит творческим задачам кинематографистов, которым часто требуются сюрреалистичные, фантастические и невозможные в реальности кадры. Однако Германидис не видит здесь противоречия. Когда модель хорошо выучивает реальное распределение данных, она понимает составные части концептов. Это позволяет ей эффективно выходить за рамки распределения (out of distribution) и генерировать невероятные, но визуально убедительные комбинации.

По сути, чем лучше модель понимает реальность, тем качественнее она умеет «галлюцинировать» в художественных целях. В качестве примера приводится генерация сцены в Gen-3, где персонаж открывает дверь и шагает из обычной комнаты в абсолютно иное, фантастическое измерение. Модель способна плавно и органично склеить эти пространства, потому что она детально понимает геометрию и физику каждого элемента в отдельности.

Для контроля этих процессов Runway активно инвестирует в исследования интерпретируемости (interpretability) своих нейросетей. Инженеры пытаются обнаружить внутри весов модели конкретные логические узлы — например, условный «токен магического реализма». Если научиться активировать его искусственно, авторы контента получат беспрецедентный уровень контроля над стилистикой и настроением видео без изменения текстового промпта.

🎬 Культура непрерывных релизов и эволюция видеоредакторов 27:30

Runway известна на рынке своей высокой скоростью выпуска продуктов. Анастасис Германидис объясняет, что культура непрерывных релизов (shipping culture) закладывалась в ДНК стартапа с самого начала, когда в команде было всего три основателя. В 2019 году это был вопрос выживания: если бы они постоянно не заявляли о себе новыми инструментами, индустрия бы их просто не заметила. Сегодня, когда технологии развиваются стремительно, частые обновления помогают сократить разрыв между лабораторными исследованиями и их восприятием пользователями. Это создает мощный внутренний импульс для команды разработчиков, которые сразу видят, как их код превращается в реальные фильмы и произведения искусства.

Мало кто помнит, но в первые годы Runway развивала два параллельных направления:

Чистые фундаментальные исследования ИИ.
Создание классических инструментов для редактирования видео на базе традиционного компьютерного зрения.

В то время (около 2019 года) генеративные модели выдавали слишком слабый результат для профессионального продакшена. Одним из самых популярных инструментов Runway «догенеративной» эпохи был Green Screen (умный хромакей) — инструмент интерактивной сегментации, позволяющий в пару кликов отделить объект от фона.

По мнению Германидиса, в будущем большинство таких изолированных инструментов видеомонтажа отомрут. Профессионалам не нужно будет делать промежуточное композитирование кадра, вырезать объекты или накладывать маски по отдельности. Все эти рутинные операции сольются в единый генеративный интерфейс. Вместо сложного многоэтапного конвейера (pipeline) пользователь сможет напрямую управлять финальным результатом с помощью команд.

При этом Runway сознательно идет на риски, выпуская новые модели (как Gen-3) без полной поддержки старых функций, ползунков и настроек соотношения сторон, которые были в Gen-2. Разработчики считают, что колоссальный прирост качества и физической консистентности новой модели важнее, чем сохранение полной преемственности интерфейса. Заставлять пользователей ждать идеального паритета функций было бы плохой услугой по отношению к сообществу создателей контента.

🎮 Генеративные движки: критический взгляд на ИИ-симуляцию DOOM и Genie 38:57

Стивен Паркер поднял тему недавних громких исследований, в частности, совместной работы ученых из Google и Гарварда по созданию нейросетевого симулятора игры DOOM (GameNGen), работающего на базе диффузионной модели в реальном времени.

Анастасис Германидис относится к данному проекту с академическим интересом, но видит в нем серьезные архитектурные ограничения:

Размер оригинального исходного кода и ассетов DOOM составляет всего несколько мегабайт.
Диффузионная модель, обученная симулировать кадры из этой игры, весит гигабайты.
С точки зрения чистой вычислительной эффективности использовать тяжелую нейросеть вместо классического игрового движка для запуска одной и той же игры не имеет коммерческого смысла.

Германидис подчеркивает, что проект GameNGen ценен как демонстрация технологии, но он практически лишен важнейшего свойства — способности к генерализации. Если бы диффузионный движок мог по текстовому запросу мгновенно создавать новые, уникальные вариации уровней DOOM на лету, это было бы революцией. Но симуляция одного и того же фиксированного геймплея неэффективна.

Куда более многообещающим проектом технический директор Runway считает модель Genie от Google. Эта нейросеть способна генерировать произвольные платформеры на основе текстовых или визуальных описаний и позволяет пользователю полноценно управлять персонажем. Модель Genie успешно генерализирует правила игрового пространства на новые, ранее не виданные ею локации. Именно в этом направлении Runway видит будущее интерактивных медиа.

💼 Бизнес-модель стартапа: как победить в игре на миллиарды долларов 40:40

На рынке ИИ доминируют технологические гиганты с практически безграничными бюджетами. В прессу просачивались слухи (например, из утекших документов компании Anthropic), что к 2025–2026 годам лидеры гонки вырвутся вперед настолько далеко, что догнать их будет невозможно. Предполагается, что лучшие модели будут генерировать колоссальную выручку и использоваться для обучения следующих поколений ИИ, создавая монополию.

На вопрос о том, придется ли Runway привлекать миллиарды долларов для проведения сверхумных тренировочных запусков (training runs), Анастасис Германидис дает прагматичный ответ. Безусловно, барьер для входа на рынок видеогенерации стремительно растет, и инвестиции в инфраструктуру необходимы. Однако чистая вычислительная мощность (compute) — далеко не единственный фактор успеха.

По мнению руководства Runway, индустрия совершает ошибку, пытаясь масштабировать одну и ту же парадигму больших языковых моделей ради достижения красивых цифр в стандартных бенчмарках. Runway имеет уникальный пласт экспертизы, скрытый от остальной индустрии: они точно знают, каким именно специфическим задачам и механикам нужно обучать модель, чтобы она была полезна создателям контента. Правильный фокус на архитектуре задач и качестве данных позволяет экономить ресурсы на порядки, обходя стратегию «грубой силы» крупных корпораций.

Германидис также не верит в сценарий «победитель получает все» (winner-take-all). Он надеется на будущую диверсификацию моделей. Разные компании будут обучать сети под разные прикладные задачи, и пользователи будут выбирать инструменты осознанно под конкретный кейс.

Что касается внутренней структуры Runway, компания сознательно придерживается стратегии сохранения компактной команды. Они стараются расти в количестве сотрудников медленнее, чем того требует рынок. Ключевой элемент управления — вся верхушка менеджмента и лидеры Runway остаются глубоко техническими специалистами (hands-on). Они лично работают над кодом и архитектурой моделей, зная каждую деталь изнутри.

В контексте влияния ИИ на индустрию Германидис не согласен с тезисом, что генеративные инструменты полностью нивелируют разницу между профессионалами и любителями. Безусловно, ИИ помогает подтянуть базовый уровень новичков. Но в профессиональной среде такие инструменты, как Gen-3 или GitHub Copilot, в первую очередь кратно ускоряют рабочий процесс экспертов. Они позволяют профессионалу делать сотни творческих выборов в единицу времени. Финальное качество продукта все равно будет определяться исключительно тремя факторами:

Наличием у автора уникального художественного вкуса (taste).
Масштабом авторского видения (vision).
Способностью принимать точные стилистические решения на основе предложенных нейросетью вариантов.

🔌 Развертывание API и парадоксы технологии Image-to-Video 51:20

В завершение беседы Анастасис Германидис приоткрыл завесу тайны над коммерческими планами компании по интеграции сервисов в сторонние приложения. Runway уже запустила закрытое тестирование своего официального API. Первым крупным публично объявленным партнером компании стал графический редактор Canva, который активно внедряет генерацию видео от Runway в свой интерфейс. В ближайшем будущем планируется расширение списка клиентов и постепенный допуск разработчиков из листа ожидания.

Обсуждая технические нюансы работы моделей, Стивен Паркер отметил парадокс: функция генерации видео из картинки (Image-to-Video) часто дается современным нейросетям сложнее, а результат получается менее консистентным, чем при чистой генерации из текста (Text-to-Video).

Технический директор Runway объяснил физику этого процесса:

С одной стороны, Image-to-Video — это более простая задача. Модели не нужно с нуля выдумывать семантику кадра, композицию, освещение и расстановку объектов. Ее фокус смещен исключительно на симуляцию движения.
С другой стороны, это принципиально более сложная задача для генерализации. Модель обязана в качестве отправной точки принять статичное изображение произвольного качества, ракурса и содержания, которое может кардинально отличаться от ее эталонного обучающего датасета. Ей приходится адаптировать свои внутренние физические представления под жесткие рамки чужого кадра.

В режиме Text-to-Video у нейросети развязаны руки: она сама выбирает наиболее удобную и оптимальную для себя композицию, в которой ей проще всего без ошибок просчитать физику движений. Именно поэтому текстовые промпты зачастую выдают субъективно более плавную и красивую динамику в кадре, хотя функция Image-to-Video остается главным приоритетом для бизнес-сегмента.