# Янник Кильхер: «NÜWA — универсальная модель для синтеза контента»

Источник: https://www.youtube.com/watch?v=InhMx1h0N40
Канал: Yannic Kilcher
Опубликовано: 08.12.2021

---

## NÜWA: Универсальная модель для генерации визуального контента

[[JUMP:0:00]]

Исследователи из Microsoft Research Asia и Пекинского университета представили NÜWA — модель, способную выполнять широкий спектр задач по генерации и обработке изображений и видео. В отличие от специализированных нейросетей, NÜWA претендует на роль универсальной платформы для «создания визуальных миров», объединяя в едином архитектурном пространстве текст, статические изображения и видеоряд. Ведущий обзора Янник Кильхер (Yannic Kilcher) отмечает, что, несмотря на заявленную универсальность, многие возможности модели требуют дообучения (fine-tuning) под конкретные задачи, а исходный код проекта на момент анализа оставался недоступным.

### 🧩 Архитектурный подход: от данных к латентному пространству
[[JUMP:7:50]]

Ключевая проблема при создании моделей, работающих с изображениями и видео как с последовательностями (аналогично языковым моделям), заключается в огромном размере контекста. Если для генерации изображения попиксельно размер контекста для трансформатора становится неподъемным, то при переходе к видео эта задача и вовсе кажется невыполнимой. Для решения этой проблемы авторы NÜWA используют двухэтапный подход:

*   **Кодирование в дискретное латентное пространство:** Данные любых типов (текст, изображения, видео) сжимаются в единое представление, которое существенно менее размерно, чем исходный формат.
*   **Локальное внимание (Local Attention):** Вместо классического глобального механизма внимания, требующего колоссальных вычислительных мощностей, модель применяет локальное внимание в латентном пространстве.

Для изображений используется техника VQGAN (усовершенствованный VQVAE), которая преобразует картинку в набор дискретных токенов из «книги кодов» (codebook). Примечательно, что для видео авторы просто объединяют латентные представления отдельных кадров, создавая 4D-тензор. Разные модальности (текст, изображения, видео) приводятся к единому формату с помощью добавления «фиктивных» размерностей (dummy dimensions), что позволяет использовать широко известные механизмы вещания (broadcasting) в популярных библиотеках машинного обучения.

### 🧠 Механизм 3DNA: работа с пространственно-временным контекстом
[[JUMP:28:56]]

Центральным элементом обработки данных в модели является слой **3DNA** (3D Nearby Attention). Это механизм локального внимания, работающий с 3D-тензором токенов (высота, ширина, время).

*   **Принцип работы:** Модель вычисляет запросы (queries) для всего тензора, но ключи (keys) и значения (values) подбираются только из «соседства» (neighborhood) вокруг конкретной точки.
*   **Эффективность:** Авторы используют кубическую область размером 3x3x3 для формирования окрестности. Это значительно снижает вычислительную сложность по сравнению с полным вниманием, где каждый элемент тензора должен взаимодействовать с каждым другим.
*   **Каузальность:** Во время генерации используется каузальное маскирование, аналогичное архитектурам типа GPT, что позволяет генерировать элементы пошагово.

### 🛠 Задачи и возможности модели
[[JUMP:41:29]]

Модель обучается на трех основных типах задач, которые в сочетании покрывают восемь различных сценариев генерации:

1.  **Text-to-Image:** Генерация изображений на основе текстового описания.
2.  **Video Prediction:** Предсказание продолжения видео на основе начальных кадров.
3.  **Text-to-Video:** Генерация видеороликов, обусловленная как видеоконтекстом, так и текстовым запросом.

Янник Кильхер подчеркивает важный нюанс: многие специфические задачи, такие как «скетч в изображение» или «манипуляция видео», по факту являются результатами дообучения, а не «нулевого» использования (zero-shot) предобученной модели. Например, под «видео-манипуляцией» авторы подразумевают генерацию продолжения видео, где модель использует первый кадр как условие, а текст — как инструкцию для изменения сюжета. В сравнении с известными моделями, такими как DALL-E, результаты NÜWA выглядят конкурентоспособными, а в ряде случаев демонстрируют большую стабильность и разрешение.