Парис Джаин о Mochi 1: «Видеомодели — это правое полушарие искусственного интеллекта»

Eye on AI 543 47 мин 5 мин 16.01.2025
Главное

В индустрии генерации видео наступил переломный момент: на смену закрытым экосистемам приходят открытые модели, способные конкурировать с гигантами уровня OpenAI и Runway. Парис Джаин, сооснователь и генеральный директор стартапа Genmo, в интервью каналу Eye on AI рассказал о запуске Mochi 1 — новой опенсорсной модели, которая ставит во главу угла реализм физических движений и доступность для сообщества.

🎥 Рождение Genmo: от академических исследований к «симулятору мира» 1:12

История Genmo началась в декабре 2022 года в стенах Калифорнийского университета в Беркли . Основатели компании, братья Парис и Аджай Джаин, объединили свой опыт в области масштабирования больших языковых моделей (LLM) и диффузионных архитектур. Аджай Джаин ранее получил известность как один из соавторов фундаментальной научной работы по DDPM (Denoising Diffusion Probabilistic Models) и создатель DreamFusion в Google Brain — первой модели, генерирующей 3D-объекты из текста .

По словам Париса, успех DreamFusion на Hacker News привел к такому наплыву трафика, что за два дня задолженность за облачные серверы достигла 20 000 долларов . Этот момент стал индикатором колоссального спроса на инструменты для творчества. В январе 2023 года Genmo выпустила первую на рынке модель преобразования изображения в видео (image-to-video), а в октябре 2024 года представила свою флагманскую разработку — Mochi 1 .

Основные приоритеты Genmo в разработке:

🛠 Архитектура Mochi 1: асимметричный подход и эффективность 6:11

В отличие от многих конкурентов, Mochi 1 построена на оригинальной архитектуре, которую разработчики называют Asymmetric Diffusion (AsimD) . По мнению Париса Джаина, поиск более крутых «законов масштабирования» (scaling laws) позволяет получать больше вычислительной мощности при тех же аппаратных затратах.

Технически процесс генерации в Mochi 1 состоит из трех этапов:

  1. Пространственно-временное сжатие: Видеоданные сжимаются в 100 раз. Модель не просто работает с кадрами, а анализирует видео как единый массив в сжатом пространстве, где нет четкого разделения между пространственными и временными измерениями .
  2. Итеративное шумоподавление (Denoising): В отличие от авторегрессионных моделей (как ChatGPT), которые генерируют токены последовательно, Mochi 1 предсказывает все кадры одновременно. Пользователь сначала видит размытое изображение, которое постепенно становится четким .
  3. Декомпрессия: Обратный перевод данных из сжатого пространства в пиксельное изображение .

Парис подчеркивает эффективность такого подхода: для обучения Mochi 1 потребовалось около 1000 GPU . Для сравнения, по его оценкам, обучение модели Sora от OpenAI могло потребовать ресурсов, эквивалентных 10 000 GPU, что делает Mochi 1 на порядок эффективнее при сопоставимом качестве .

🔓 Сила Open Source: от DGX за $250 000 до домашнего ПК 4:36

Решение сделать Mochi 1 открытой моделью (Open Source) стало стратегическим шагом для борьбы с доминированием ИТ-гигантов. Парис уверен, что без открытых моделей стартапы и академическое сообщество не смогут преуспеть в этой гонке .

Результаты открытости проявились мгновенно:

🧠 Видео как «симулятор мира» и искусственный интеллект 25:52

Парис Джаин рассматривает генерацию видео не просто как инструмент для создания контента, а как фундаментальный шаг к созданию более сложного интеллекта. Он сравнивает языковые модели (LLM) с «левым полушарием», которое учится по пересказам и описаниям мира другими людьми . Генерацию видео он называет «правым полушарием», обучающимся непосредственно законам природы — физике, оптике, инерции и массе .

Гендиректор Genmo выделяет несколько аспектов превосходства видеомоделей над традиционными 3D-движками:

Для улучшения физической достоверности Genmo активно использует синтетические пайплайны данных . Парис отмечает, что опыт работы в сфере беспилотных автомобилей (self-driving) доказал эффективность симуляции: агенты ИИ, обученные в GTA, показывают отличные результаты в реальном мире .

🚀 Будущее: интерактивность и миллиарды специализированных моделей 17:42

Отвечая на вопрос о консолидации рынка, Парис выразил мнение, что «единой модели для всего» не будет. Он сравнивает базовые модели с сырой нефтью: их нужно перерабатывать, настраивать и дистиллировать для конкретных нужд — аниме, маркетинга, электронной коммерции или сторителлинга .

В ближайшей перспективе развитие технологий пойдет по трем направлениям:

  1. Длительность: Текущий лимит Mochi 1 составляет 5,4 секунды — это «сладкая точка», позволяющая загружать ролики в TikTok и при этом запускать модель на домашнем железе . Увеличение длины ведет к сверхлинейному росту затрат на генерацию .
  2. Контроль и последовательность: С помощью дообучения (fine-tuning) пользователи уже могут создавать стабильных аватаров. В будущем Парис ожидает появления few-shot промптов, когда модели будет достаточно одного примера, чтобы понять личность и стиль персонажа .
  3. Интерактивность: Глава Genmo предсказывает появление видеомоделей, к которым можно будет «подключить джойстик» . Это позволит создавать полностью синтетические миры, превосходящие нынешнюю концепцию метавселенных по качеству графики и физики .

На сегодняшний день платформа Genmo насчитывает более 2 миллионов зарегистрированных пользователей в 40 странах . Модель Mochi 1 с 10 миллиардами параметров занимает второе место в независимом рейтинге Artificial Analysis, доказав, что открытые разработки при поддержке сообщества способны успешно конкурировать с закрытыми проприетарными решениями .

💬 Цитаты

«Базовые модели — это сырье, как сырая нефть. Вам нужно очистить и настроить её, чтобы получить ракетное топливо для конкретных задач.»

Парис Джаин 18:09

«Языковые модели — это левое полушарие интеллекта, а диффузионные модели видео — правое.»

Парис Джаин 34:52
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
DDPM
Фундаментальный тип диффузионных моделей машинного обучения для генерации контента.
Prompt Adherence
Способность ИИ-модели строго следовать инструкциям, заданным пользователем в текстовом запросе.
Time to First Pixel
Скорость, с которой видеокарта начинает выдавать первые визуальные данные процесса генерации после старта задания.
📊 Цифры
🗓 Хронология
  1. декабрь 2022 Основание компании Genmo братьями Джаин.
  2. январь 2023 Запуск первой модели преобразования изображения в видео.
  3. 22 октября 2024 Официальный релиз и открытие исходного кода модели Mochi 1.
⚖️ Другая сторона
Искусственный интеллект Genmo Mochi 1 Парис Джаин видеогенерация Open Source ИИ