# Парис Джаин о Mochi 1: «Видеомодели — это правое полушарие искусственного интеллекта»

Источник: https://www.youtube.com/watch?v=vJP9BBpQJd4
Канал: Eye on AI
Опубликовано: 16.01.2025

---

В индустрии генерации видео наступил переломный момент: на смену закрытым экосистемам приходят открытые модели, способные конкурировать с гигантами уровня OpenAI и Runway. Парис Джаин, сооснователь и генеральный директор стартапа Genmo, в интервью каналу Eye on AI рассказал о запуске Mochi 1 — новой опенсорсной модели, которая ставит во главу угла реализм физических движений и доступность для сообщества.

## 🎥 Рождение Genmo: от академических исследований к «симулятору мира»
[[JUMP:01:12]]

История Genmo началась в декабре 2022 года в стенах Калифорнийского университета в Беркли [02:12]. Основатели компании, братья Парис и Аджай Джаин, объединили свой опыт в области масштабирования больших языковых моделей (LLM) и диффузионных архитектур. Аджай Джаин ранее получил известность как один из соавторов фундаментальной научной работы по DDPM (Denoising Diffusion Probabilistic Models) и создатель DreamFusion в Google Brain — первой модели, генерирующей 3D-объекты из текста [02:26].

По словам Париса, успех DreamFusion на Hacker News привел к такому наплыву трафика, что за два дня задолженность за облачные серверы достигла 20 000 долларов [02:39]. Этот момент стал индикатором колоссального спроса на инструменты для творчества. В январе 2023 года Genmo выпустила первую на рынке модель преобразования изображения в видео (image-to-video), а в октябре 2024 года представила свою флагманскую разработку — Mochi 1 [03:17].

Основные приоритеты Genmo в разработке:

*   **Качество движения:** Парис утверждает, что многие текущие продукты на рынке выглядят как «живые фото» или GIF-анимации, в то время как Mochi 1 обеспечивает полноценное, плавное движение [03:42].
*   **Соблюдение промпта (Prompt Adherence):** Модель должна точно выполнять инструкции пользователя, что критически важно для профессионального производства [04:09].
*   **Скорость:** Mochi 1 обладает самым быстрым в индустрии показателем «времени до первого пикселя» — процесс рендеринга на GPU начинается в течение первых 10 секунд [14:22].

## 🛠 Архитектура Mochi 1: асимметричный подход и эффективность
[[JUMP:06:11]]

В отличие от многих конкурентов, Mochi 1 построена на оригинальной архитектуре, которую разработчики называют Asymmetric Diffusion (AsimD) [06:25]. По мнению Париса Джаина, поиск более крутых «законов масштабирования» (scaling laws) позволяет получать больше вычислительной мощности при тех же аппаратных затратах.

Технически процесс генерации в Mochi 1 состоит из трех этапов:

1.  **Пространственно-временное сжатие:** Видеоданные сжимаются в 100 раз. Модель не просто работает с кадрами, а анализирует видео как единый массив в сжатом пространстве, где нет четкого разделения между пространственными и временными измерениями [32:03].
2.  **Итеративное шумоподавление (Denoising):** В отличие от авторегрессионных моделей (как ChatGPT), которые генерируют токены последовательно, Mochi 1 предсказывает все кадры одновременно. Пользователь сначала видит размытое изображение, которое постепенно становится четким [33:56].
3.  **Декомпрессия:** Обратный перевод данных из сжатого пространства в пиксельное изображение [32:41].

Парис подчеркивает эффективность такого подхода: для обучения Mochi 1 потребовалось около 1000 GPU [13:15]. Для сравнения, по его оценкам, обучение модели Sora от OpenAI могло потребовать ресурсов, эквивалентных 10 000 GPU, что делает Mochi 1 на порядок эффективнее при сопоставимом качестве [13:29].

## 🔓 Сила Open Source: от DGX за $250 000 до домашнего ПК
[[JUMP:04:36]]

Решение сделать Mochi 1 открытой моделью (Open Source) стало стратегическим шагом для борьбы с доминированием ИТ-гигантов. Парис уверен, что без открытых моделей стартапы и академическое сообщество не смогут преуспеть в этой гонке [04:49].

Результаты открытости проявились мгновенно:

*   **Сжатие модели:** Изначально для запуска Mochi 1 требовался сервер NVIDIA DGX стоимостью 250 000 долларов. Всего за четыре дня сообщество нашло способы сжать модель в 25 раз, что позволило запускать её на потребительских видеокартах за 1500 долларов [08:40].
*   **Портирование:** Разработчики-энтузиасты уже запустили модель на MacBook [15:28].
*   **Новые функции:** Сообщество самостоятельно реализовало возможность редактирования видео (video-to-video), хотя изначально модель обучалась только для генерации по тексту [15:53]. По словам Париса, сторонний разработчик смог добиться реалистичного добавления объектов (например, шляпы на голову человека) на базе открытых весов модели [16:07].

## 🧠 Видео как «симулятор мира» и искусственный интеллект
[[JUMP:25:52]]

Парис Джаин рассматривает генерацию видео не просто как инструмент для создания контента, а как фундаментальный шаг к созданию более сложного интеллекта. Он сравнивает языковые модели (LLM) с «левым полушарием», которое учится по пересказам и описаниям мира другими людьми [34:09]. Генерацию видео он называет «правым полушарием», обучающимся непосредственно законам природы — физике, оптике, инерции и массе [28:17].

Гендиректор Genmo выделяет несколько аспектов превосходства видеомоделей над традиционными 3D-движками:

*   **Сложная физика:** Модели видео уже сейчас лучше справляются с симуляцией таких явлений, как рефракция света в воде или движение меха и волос, что в классической 3D-графике требует огромных вычислительных мощностей [12:21].
*   **Первичное обучение:** Видео позволяет ИИ обучаться физическим константам напрямую из визуального потока, что Парис называет «обучением первой степени» [28:30].

Для улучшения физической достоверности Genmo активно использует синтетические пайплайны данных [09:18]. Парис отмечает, что опыт работы в сфере беспилотных автомобилей (self-driving) доказал эффективность симуляции: агенты ИИ, обученные в GTA, показывают отличные результаты в реальном мире [11:30].

## 🚀 Будущее: интерактивность и миллиарды специализированных моделей
[[JUMP:17:42]]

Отвечая на вопрос о консолидации рынка, Парис выразил мнение, что «единой модели для всего» не будет. Он сравнивает базовые модели с сырой нефтью: их нужно перерабатывать, настраивать и дистиллировать для конкретных нужд — аниме, маркетинга, электронной коммерции или сторителлинга [18:21].

В ближайшей перспективе развитие технологий пойдет по трем направлениям:

1.  **Длительность:** Текущий лимит Mochi 1 составляет 5,4 секунды — это «сладкая точка», позволяющая загружать ролики в TikTok и при этом запускать модель на домашнем железе [21:01]. Увеличение длины ведет к сверхлинейному росту затрат на генерацию [20:48].
2.  **Контроль и последовательность:** С помощью дообучения (fine-tuning) пользователи уже могут создавать стабильных аватаров. В будущем Парис ожидает появления few-shot промптов, когда модели будет достаточно одного примера, чтобы понять личность и стиль персонажа [23:51].
3.  **Интерактивность:** Глава Genmo предсказывает появление видеомоделей, к которым можно будет «подключить джойстик» [36:10]. Это позволит создавать полностью синтетические миры, превосходящие нынешнюю концепцию метавселенных по качеству графики и физики [45:25].

На сегодняшний день платформа Genmo насчитывает более 2 миллионов зарегистрированных пользователей в 40 странах [37:56]. Модель Mochi 1 с 10 миллиардами параметров занимает второе место в независимом рейтинге Artificial Analysis, доказав, что открытые разработки при поддержке сообщества способны успешно конкурировать с закрытыми проприетарными решениями [07:17].