Янник Кильхер: «NÜWA — универсальная модель для синтеза контента»

NÜWA: Универсальная модель для генерации визуального контента 0:00

Исследователи из Microsoft Research Asia и Пекинского университета представили NÜWA — модель, способную выполнять широкий спектр задач по генерации и обработке изображений и видео. В отличие от специализированных нейросетей, NÜWA претендует на роль универсальной платформы для «создания визуальных миров», объединяя в едином архитектурном пространстве текст, статические изображения и видеоряд. Ведущий обзора Янник Кильхер (Yannic Kilcher) отмечает, что, несмотря на заявленную универсальность, многие возможности модели требуют дообучения (fine-tuning) под конкретные задачи, а исходный код проекта на момент анализа оставался недоступным.

🧩 Архитектурный подход: от данных к латентному пространству 7:50

Ключевая проблема при создании моделей, работающих с изображениями и видео как с последовательностями (аналогично языковым моделям), заключается в огромном размере контекста. Если для генерации изображения попиксельно размер контекста для трансформатора становится неподъемным, то при переходе к видео эта задача и вовсе кажется невыполнимой. Для решения этой проблемы авторы NÜWA используют двухэтапный подход:

Кодирование в дискретное латентное пространство: Данные любых типов (текст, изображения, видео) сжимаются в единое представление, которое существенно менее размерно, чем исходный формат.
Локальное внимание (Local Attention): Вместо классического глобального механизма внимания, требующего колоссальных вычислительных мощностей, модель применяет локальное внимание в латентном пространстве.

Для изображений используется техника VQGAN (усовершенствованный VQVAE), которая преобразует картинку в набор дискретных токенов из «книги кодов» (codebook). Примечательно, что для видео авторы просто объединяют латентные представления отдельных кадров, создавая 4D-тензор. Разные модальности (текст, изображения, видео) приводятся к единому формату с помощью добавления «фиктивных» размерностей (dummy dimensions), что позволяет использовать широко известные механизмы вещания (broadcasting) в популярных библиотеках машинного обучения.

🧠 Механизм 3DNA: работа с пространственно-временным контекстом 28:56

Центральным элементом обработки данных в модели является слой 3DNA (3D Nearby Attention). Это механизм локального внимания, работающий с 3D-тензором токенов (высота, ширина, время).

Принцип работы: Модель вычисляет запросы (queries) для всего тензора, но ключи (keys) и значения (values) подбираются только из «соседства» (neighborhood) вокруг конкретной точки.
Эффективность: Авторы используют кубическую область размером 3x3x3 для формирования окрестности. Это значительно снижает вычислительную сложность по сравнению с полным вниманием, где каждый элемент тензора должен взаимодействовать с каждым другим.
Каузальность: Во время генерации используется каузальное маскирование, аналогичное архитектурам типа GPT, что позволяет генерировать элементы пошагово.

🛠 Задачи и возможности модели 41:29

Модель обучается на трех основных типах задач, которые в сочетании покрывают восемь различных сценариев генерации:

Text-to-Image: Генерация изображений на основе текстового описания.
Video Prediction: Предсказание продолжения видео на основе начальных кадров.
Text-to-Video: Генерация видеороликов, обусловленная как видеоконтекстом, так и текстовым запросом.

Янник Кильхер подчеркивает важный нюанс: многие специфические задачи, такие как «скетч в изображение» или «манипуляция видео», по факту являются результатами дообучения, а не «нулевого» использования (zero-shot) предобученной модели. Например, под «видео-манипуляцией» авторы подразумевают генерацию продолжения видео, где модель использует первый кадр как условие, а текст — как инструкцию для изменения сюжета. В сравнении с известными моделями, такими как DALL-E, результаты NÜWA выглядят конкурентоспособными, а в ряде случаев демонстрируют большую стабильность и разрешение.