Компания Lightrix представила LTX-2 — новую флагманскую открытую модель для генерации видео, которая претендует на звание самого значимого релиза в индустрии за последний год. В отличие от многих конкурентов, проект предлагает не просто закрытое демо, а полный доступ к весам, тренировочному коду и инструментам для адаптации под профессиональные рабочие процессы.
🎥 Новая эра открытого видео: что такое LTX-2 0:00
LTX-2 — это не очередная «обертка» над существующими сервисами, а полноценная базовая модель видеогенерации от компании Lightrix . Главная особенность релиза заключается в его полной открытости: разработчики опубликовали не только веса (weights), но и полный тренировочный код, а также фреймворки для дообучения .
По мнению автора канала Веса Рота (Wes Roth), это самый важный релиз в сфере AI-видео за текущий и прошлый годы . Модель оптимизирована для работы на потребительском оборудовании, в частности на видеокартах NVIDIA серии RTX, что делает высококачественную генерацию видео доступной в домашних условиях .
Основные характеристики модели:
- Поддержка разрешения до 4K .
- Нативная поддержка аудио (генерация видео, синхронизированного со звуком) .
- Мультимодальные пайплайны: текст в видео (Text-to-Video), изображение в видео (Image-to-Video), видео в видео и генерация с условием по аудио .
- Полная бесплатность и открытый исходный код .
💻 Технические требования и оптимизация 1:50
Для работы с полной версией модели требуется серьезное оборудование. Вес Рот тестировал LTX-2 на своей рабочей станции со следующими характеристиками:
- GPU: NVIDIA GeForce RTX 4090 (24 ГБ видеопамяти) .
- CPU: Intel Core i9 .
- RAM: 64 ГБ оперативной памяти .
Однако, по словам Рота, пользователям не обязательно иметь столь мощную систему . Lightrix выпустила дистиллированные (distilled) и квантованные варианты моделей, которые значительно снижают требования к памяти без критической потери качества . Это делает локальную генерацию быстрой и практичной даже на средних пользовательских ПК .
🛠 Работа в ComfyUI: узлы и этапы генерации 3:46
LTX-2 интегрируется напрямую в ComfyUI — популярный инструмент с нодовым (узловым) интерфейсом для локального запуска нейросетей . Процесс генерации в LTX-2 разделен на два ключевых этапа:
- Базовая генерация: модель создает видео в низком разрешении .
- Пространственный апскейлер: полученные данные передаются во вторую стадию, где происходит уточнение деталей и масштабирование до финального высокого разрешения .
Вес Рот отмечает, что использование дистиллированной модели (Distilled) значительно ускоряет процесс итерации . В его тестах генерация 5-секундного клика (121 кадр при 24 fps) заняла:
Рот рекомендует использовать дистиллированную версию для быстрых экспериментов и подбора промптов, а финальный рендер выполнять на полной модели для достижения максимального качества .
🎮 Управление движением через LoRA и промпты 13:56
Для тонкого контроля над результатом Lightrix предоставила набор специальных LoRA (Low-Rank Adaptations) — легких модулей, которые обучают базовую модель конкретным стилям или движениям камеры .
В релиз включены «IC-LoRA» для управления камерой:
Критически важный нюанс, на который указывает Вес Рот: LoRA необходимо применять к обоим этапам генерации (и к базе, и к апскейлеру) . Если применить эффект только к первой стадии, апскейлер может «галлюцинировать» детали, которые не соответствуют задуманному движению .
При написании промптов для таких моделей Рот советует использовать естественный язык и описывать не только само движение (например, «Dolly left shot»), но и то, что должно открыться за кадром при смещении камеры (параллакс, скрытые объекты) .
🖼 Оживление классики: Image-to-Video 18:08
Функция «изображение в видео» (I2V) позволяет использовать картинку как структурный якорь . Рот продемонстрировал работу этой функции на примере знаменитой картины Эдварда Мунка «Крик» .
Процесс выглядит следующим образом:
- Загружается исходное изображение .
- Пишется текстовый промпт, описывающий действие (например, «человек издает скорбный крик, идя на камеру») .
- Модель анимирует изображение, сохраняя его композицию .
Интересной деталью видео стало признание автора, что он только сейчас узнал, что автором «Крика» является норвежский художник Эдвард Мунк, а не Ван Гог или Сальвадор Дали, как полагали некоторые его знакомые .
💎 Почему открытость кода важнее всего 19:44
В завершение Вес Рот подчеркивает, что LTX-2 кардинально отличается от многих «открытых» моделей, которые на деле являются тупиковыми ветками развития . Благодаря публикации тренировочного кода и рецептов обучения, разработчики и студии могут:
- Адаптировать модель под свои специфические нужды и пайплайны .
- Обеспечить приватность интеллектуальной собственности (IP), запуская всё на локальных серверах .
- Проверять результаты бенчмарков самостоятельно .
По мнению Рота, Lightrix сделала огромный вклад в сообщество, выпустив действительно открытый инструмент, а не просто ограниченное демо . Он призывает зрителей скачивать веса с репозитория GitHub и делиться результатами в социальных сетях .