Янник Кильхер: «NÜWA — универсальная модель для синтеза контента»

Yannic Kilcher 15,4 тыс. 52 мин 2 мин 08.12.2021
Главное

NÜWA: Универсальная модель для генерации визуального контента 0:00

Исследователи из Microsoft Research Asia и Пекинского университета представили NÜWA — модель, способную выполнять широкий спектр задач по генерации и обработке изображений и видео. В отличие от специализированных нейросетей, NÜWA претендует на роль универсальной платформы для «создания визуальных миров», объединяя в едином архитектурном пространстве текст, статические изображения и видеоряд. Ведущий обзора Янник Кильхер (Yannic Kilcher) отмечает, что, несмотря на заявленную универсальность, многие возможности модели требуют дообучения (fine-tuning) под конкретные задачи, а исходный код проекта на момент анализа оставался недоступным.

🧩 Архитектурный подход: от данных к латентному пространству 7:50

Ключевая проблема при создании моделей, работающих с изображениями и видео как с последовательностями (аналогично языковым моделям), заключается в огромном размере контекста. Если для генерации изображения попиксельно размер контекста для трансформатора становится неподъемным, то при переходе к видео эта задача и вовсе кажется невыполнимой. Для решения этой проблемы авторы NÜWA используют двухэтапный подход:

Для изображений используется техника VQGAN (усовершенствованный VQVAE), которая преобразует картинку в набор дискретных токенов из «книги кодов» (codebook). Примечательно, что для видео авторы просто объединяют латентные представления отдельных кадров, создавая 4D-тензор. Разные модальности (текст, изображения, видео) приводятся к единому формату с помощью добавления «фиктивных» размерностей (dummy dimensions), что позволяет использовать широко известные механизмы вещания (broadcasting) в популярных библиотеках машинного обучения.

🧠 Механизм 3DNA: работа с пространственно-временным контекстом 28:56

Центральным элементом обработки данных в модели является слой 3DNA (3D Nearby Attention). Это механизм локального внимания, работающий с 3D-тензором токенов (высота, ширина, время).

🛠 Задачи и возможности модели 41:29

Модель обучается на трех основных типах задач, которые в сочетании покрывают восемь различных сценариев генерации:

  1. Text-to-Image: Генерация изображений на основе текстового описания.
  2. Video Prediction: Предсказание продолжения видео на основе начальных кадров.
  3. Text-to-Video: Генерация видеороликов, обусловленная как видеоконтекстом, так и текстовым запросом.

Янник Кильхер подчеркивает важный нюанс: многие специфические задачи, такие как «скетч в изображение» или «манипуляция видео», по факту являются результатами дообучения, а не «нулевого» использования (zero-shot) предобученной модели. Например, под «видео-манипуляцией» авторы подразумевают генерацию продолжения видео, где модель использует первый кадр как условие, а текст — как инструкцию для изменения сюжета. В сравнении с известными моделями, такими как DALL-E, результаты NÜWA выглядят конкурентоспособными, а в ряде случаев демонстрируют большую стабильность и разрешение.

💬 Цитаты

«Это первый шаг к созданию платформы ИИ, которая позволит создавать визуальные миры и поможет создателям контента.»

Янник Кильхер 52:07

«Вместо того чтобы работать над всей последовательностью, мы используем локальное внимание в 3D-тензоре.»

Янник Кильхер 33:30
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VQGAN
Тип нейросетевой архитектуры, которая сжимает изображения в дискретные токены, позволяя эффективно генерировать их.
Каузальное маскирование
Техника в трансформерах, при которой модель при генерации текущего элемента может видеть только предыдущие, но не последующие.
Латентное пространство
Сжатое представление данных, где сложные входные объекты (например, пиксели картинки) превращаются в компактные векторы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект NÜWA Microsoft Research VQGAN 3DNA Deep Learning