Парис Джаин о Mochi 1: «Видеомодели — это правое полушарие искусственного интеллекта»

В индустрии генерации видео наступил переломный момент: на смену закрытым экосистемам приходят открытые модели, способные конкурировать с гигантами уровня OpenAI и Runway. Парис Джаин, сооснователь и генеральный директор стартапа Genmo, в интервью каналу Eye on AI рассказал о запуске Mochi 1 — новой опенсорсной модели, которая ставит во главу угла реализм физических движений и доступность для сообщества.

🎥 Рождение Genmo: от академических исследований к «симулятору мира» 1:12

История Genmo началась в декабре 2022 года в стенах Калифорнийского университета в Беркли . Основатели компании, братья Парис и Аджай Джаин, объединили свой опыт в области масштабирования больших языковых моделей (LLM) и диффузионных архитектур. Аджай Джаин ранее получил известность как один из соавторов фундаментальной научной работы по DDPM (Denoising Diffusion Probabilistic Models) и создатель DreamFusion в Google Brain — первой модели, генерирующей 3D-объекты из текста .

По словам Париса, успех DreamFusion на Hacker News привел к такому наплыву трафика, что за два дня задолженность за облачные серверы достигла 20 000 долларов . Этот момент стал индикатором колоссального спроса на инструменты для творчества. В январе 2023 года Genmo выпустила первую на рынке модель преобразования изображения в видео (image-to-video), а в октябре 2024 года представила свою флагманскую разработку — Mochi 1 .

Основные приоритеты Genmo в разработке:

Качество движения: Парис утверждает, что многие текущие продукты на рынке выглядят как «живые фото» или GIF-анимации, в то время как Mochi 1 обеспечивает полноценное, плавное движение .
Соблюдение промпта (Prompt Adherence): Модель должна точно выполнять инструкции пользователя, что критически важно для профессионального производства .
Скорость: Mochi 1 обладает самым быстрым в индустрии показателем «времени до первого пикселя» — процесс рендеринга на GPU начинается в течение первых 10 секунд .

🛠 Архитектура Mochi 1: асимметричный подход и эффективность 6:11

В отличие от многих конкурентов, Mochi 1 построена на оригинальной архитектуре, которую разработчики называют Asymmetric Diffusion (AsimD) . По мнению Париса Джаина, поиск более крутых «законов масштабирования» (scaling laws) позволяет получать больше вычислительной мощности при тех же аппаратных затратах.

Технически процесс генерации в Mochi 1 состоит из трех этапов:

Пространственно-временное сжатие: Видеоданные сжимаются в 100 раз. Модель не просто работает с кадрами, а анализирует видео как единый массив в сжатом пространстве, где нет четкого разделения между пространственными и временными измерениями .
Итеративное шумоподавление (Denoising): В отличие от авторегрессионных моделей (как ChatGPT), которые генерируют токены последовательно, Mochi 1 предсказывает все кадры одновременно. Пользователь сначала видит размытое изображение, которое постепенно становится четким .
Декомпрессия: Обратный перевод данных из сжатого пространства в пиксельное изображение .

Парис подчеркивает эффективность такого подхода: для обучения Mochi 1 потребовалось около 1000 GPU . Для сравнения, по его оценкам, обучение модели Sora от OpenAI могло потребовать ресурсов, эквивалентных 10 000 GPU, что делает Mochi 1 на порядок эффективнее при сопоставимом качестве .

🔓 Сила Open Source: от DGX за $250 000 до домашнего ПК 4:36

Решение сделать Mochi 1 открытой моделью (Open Source) стало стратегическим шагом для борьбы с доминированием ИТ-гигантов. Парис уверен, что без открытых моделей стартапы и академическое сообщество не смогут преуспеть в этой гонке .

Результаты открытости проявились мгновенно:

Сжатие модели: Изначально для запуска Mochi 1 требовался сервер NVIDIA DGX стоимостью 250 000 долларов. Всего за четыре дня сообщество нашло способы сжать модель в 25 раз, что позволило запускать её на потребительских видеокартах за 1500 долларов .
Портирование: Разработчики-энтузиасты уже запустили модель на MacBook .
Новые функции: Сообщество самостоятельно реализовало возможность редактирования видео (video-to-video), хотя изначально модель обучалась только для генерации по тексту . По словам Париса, сторонний разработчик смог добиться реалистичного добавления объектов (например, шляпы на голову человека) на базе открытых весов модели .

🧠 Видео как «симулятор мира» и искусственный интеллект 25:52

Парис Джаин рассматривает генерацию видео не просто как инструмент для создания контента, а как фундаментальный шаг к созданию более сложного интеллекта. Он сравнивает языковые модели (LLM) с «левым полушарием», которое учится по пересказам и описаниям мира другими людьми . Генерацию видео он называет «правым полушарием», обучающимся непосредственно законам природы — физике, оптике, инерции и массе .

Гендиректор Genmo выделяет несколько аспектов превосходства видеомоделей над традиционными 3D-движками:

Сложная физика: Модели видео уже сейчас лучше справляются с симуляцией таких явлений, как рефракция света в воде или движение меха и волос, что в классической 3D-графике требует огромных вычислительных мощностей .
Первичное обучение: Видео позволяет ИИ обучаться физическим константам напрямую из визуального потока, что Парис называет «обучением первой степени» .

Для улучшения физической достоверности Genmo активно использует синтетические пайплайны данных . Парис отмечает, что опыт работы в сфере беспилотных автомобилей (self-driving) доказал эффективность симуляции: агенты ИИ, обученные в GTA, показывают отличные результаты в реальном мире .

🚀 Будущее: интерактивность и миллиарды специализированных моделей 17:42

Отвечая на вопрос о консолидации рынка, Парис выразил мнение, что «единой модели для всего» не будет. Он сравнивает базовые модели с сырой нефтью: их нужно перерабатывать, настраивать и дистиллировать для конкретных нужд — аниме, маркетинга, электронной коммерции или сторителлинга .

В ближайшей перспективе развитие технологий пойдет по трем направлениям:

Длительность: Текущий лимит Mochi 1 составляет 5,4 секунды — это «сладкая точка», позволяющая загружать ролики в TikTok и при этом запускать модель на домашнем железе . Увеличение длины ведет к сверхлинейному росту затрат на генерацию .
Контроль и последовательность: С помощью дообучения (fine-tuning) пользователи уже могут создавать стабильных аватаров. В будущем Парис ожидает появления few-shot промптов, когда модели будет достаточно одного примера, чтобы понять личность и стиль персонажа .
Интерактивность: Глава Genmo предсказывает появление видеомоделей, к которым можно будет «подключить джойстик» . Это позволит создавать полностью синтетические миры, превосходящие нынешнюю концепцию метавселенных по качеству графики и физики .

На сегодняшний день платформа Genmo насчитывает более 2 миллионов зарегистрированных пользователей в 40 странах . Модель Mochi 1 с 10 миллиардами параметров занимает второе место в независимом рейтинге Artificial Analysis, доказав, что открытые разработки при поддержке сообщества способны успешно конкурировать с закрытыми проприетарными решениями .