Lightrix выпустила LTX-2: первая по-настоящему открытая видеомодель с кодом обучения

Компания Lightrix представила LTX-2 — новую флагманскую открытую модель для генерации видео, которая претендует на звание самого значимого релиза в индустрии за последний год. В отличие от многих конкурентов, проект предлагает не просто закрытое демо, а полный доступ к весам, тренировочному коду и инструментам для адаптации под профессиональные рабочие процессы.

🎥 Новая эра открытого видео: что такое LTX-2 0:00

LTX-2 — это не очередная «обертка» над существующими сервисами, а полноценная базовая модель видеогенерации от компании Lightrix . Главная особенность релиза заключается в его полной открытости: разработчики опубликовали не только веса (weights), но и полный тренировочный код, а также фреймворки для дообучения .

По мнению автора канала Веса Рота (Wes Roth), это самый важный релиз в сфере AI-видео за текущий и прошлый годы . Модель оптимизирована для работы на потребительском оборудовании, в частности на видеокартах NVIDIA серии RTX, что делает высококачественную генерацию видео доступной в домашних условиях .

Основные характеристики модели:

Поддержка разрешения до 4K .
Нативная поддержка аудио (генерация видео, синхронизированного со звуком) .
Мультимодальные пайплайны: текст в видео (Text-to-Video), изображение в видео (Image-to-Video), видео в видео и генерация с условием по аудио .
Полная бесплатность и открытый исходный код .

💻 Технические требования и оптимизация 1:50

Для работы с полной версией модели требуется серьезное оборудование. Вес Рот тестировал LTX-2 на своей рабочей станции со следующими характеристиками:

GPU: NVIDIA GeForce RTX 4090 (24 ГБ видеопамяти) .
CPU: Intel Core i9 .
RAM: 64 ГБ оперативной памяти .

Однако, по словам Рота, пользователям не обязательно иметь столь мощную систему . Lightrix выпустила дистиллированные (distilled) и квантованные варианты моделей, которые значительно снижают требования к памяти без критической потери качества . Это делает локальную генерацию быстрой и практичной даже на средних пользовательских ПК .

🛠 Работа в ComfyUI: узлы и этапы генерации 3:46

LTX-2 интегрируется напрямую в ComfyUI — популярный инструмент с нодовым (узловым) интерфейсом для локального запуска нейросетей . Процесс генерации в LTX-2 разделен на два ключевых этапа:

Базовая генерация: модель создает видео в низком разрешении .
Пространственный апскейлер: полученные данные передаются во вторую стадию, где происходит уточнение деталей и масштабирование до финального высокого разрешения .

Вес Рот отмечает, что использование дистиллированной модели (Distilled) значительно ускоряет процесс итерации . В его тестах генерация 5-секундного клика (121 кадр при 24 fps) заняла:

53 секунды на дистиллированной модели .
2 минуты 27 секунд на полной версии модели .

Рот рекомендует использовать дистиллированную версию для быстрых экспериментов и подбора промптов, а финальный рендер выполнять на полной модели для достижения максимального качества .

🎮 Управление движением через LoRA и промпты 13:56

Для тонкого контроля над результатом Lightrix предоставила набор специальных LoRA (Low-Rank Adaptations) — легких модулей, которые обучают базовую модель конкретным стилям или движениям камеры .

В релиз включены «IC-LoRA» для управления камерой:

Dolly Left / Dolly Right: движение камеры влево или вправо .
Dolly Out: отдаление камеры .

Критически важный нюанс, на который указывает Вес Рот: LoRA необходимо применять к обоим этапам генерации (и к базе, и к апскейлеру) . Если применить эффект только к первой стадии, апскейлер может «галлюцинировать» детали, которые не соответствуют задуманному движению .

При написании промптов для таких моделей Рот советует использовать естественный язык и описывать не только само движение (например, «Dolly left shot»), но и то, что должно открыться за кадром при смещении камеры (параллакс, скрытые объекты) .

🖼 Оживление классики: Image-to-Video 18:08

Функция «изображение в видео» (I2V) позволяет использовать картинку как структурный якорь . Рот продемонстрировал работу этой функции на примере знаменитой картины Эдварда Мунка «Крик» .

Процесс выглядит следующим образом:

Загружается исходное изображение .
Пишется текстовый промпт, описывающий действие (например, «человек издает скорбный крик, идя на камеру») .
Модель анимирует изображение, сохраняя его композицию .

Интересной деталью видео стало признание автора, что он только сейчас узнал, что автором «Крика» является норвежский художник Эдвард Мунк, а не Ван Гог или Сальвадор Дали, как полагали некоторые его знакомые .

💎 Почему открытость кода важнее всего 19:44

В завершение Вес Рот подчеркивает, что LTX-2 кардинально отличается от многих «открытых» моделей, которые на деле являются тупиковыми ветками развития . Благодаря публикации тренировочного кода и рецептов обучения, разработчики и студии могут:

Адаптировать модель под свои специфические нужды и пайплайны .
Обеспечить приватность интеллектуальной собственности (IP), запуская всё на локальных серверах .
Проверять результаты бенчмарков самостоятельно .

По мнению Рота, Lightrix сделала огромный вклад в сообщество, выпустив действительно открытый инструмент, а не просто ограниченное демо . Он призывает зрителей скачивать веса с репозитория GitHub и делиться результатами в социальных сетях .