Янник Кильчер: «Autoregressive Diffusion Models меняют порядок генерации»

Yannic Kilcher 28,7 тыс. 34 мин 2 мин 10.11.2021
Главное

Авторегрессионные диффузионные модели: свобода порядка генерации

Исследователи из Google Research предложили новый класс моделей — Autoregressive Diffusion Models (ARDM), которые объединяют гибкость авторегрессионных моделей с эффективностью методов диффузии. В своем обзоре Янник Кильчер (Yannic Kilcher) анализирует концепцию, позволяющую декодировать переменные в произвольном порядке, что кардинально отличается от привычных подходов, где данные генерируются жестко по цепочке.

В чем суть инновации?

Традиционные авторегрессионные модели, такие как GPT, генерируют токены строго последовательно: слева направо или сверху вниз. По мнению Кильчера, такой подход навязывает модели искусственные ограничения, так как порядок чтения текста не всегда является оптимальным для генерации.

Механика работы: BERT в последовательности

Кильчер отмечает, что архитектурно ARDM напоминают модель BERT, где используется маскирование токенов. В процессе обучения часть данных скрывается («маскируется»), и нейросеть учится предсказывать распределение вероятностей для всех отсутствующих элементов одновременно.

Однако здесь кроется ключевое различие между обучением и генерацией:

  1. Обучение: Модель предсказывает все недостающие данные сразу, что очень эффективно.
  2. Генерация: Несмотря на то, что модель может предсказать всё сразу, элементы данных взаимозависимы. Если пиксели в изображении зависят друг от друга, нельзя просто сэмплировать их независимо — необходимо совершить «выбор», который изменит распределение вероятностей для оставшихся элементов.

По словам ведущего, именно это делает ARDM «авторегрессионными» в фазе генерации, даже если порядок действий не задан жестко изначально.

Баланс скорости и качества

Одной из главных особенностей ARDM является возможность адаптивного управления генерацией. Пользователь может распределить «бюджет» шагов: например, генерировать больше данных за один проход, если нужно ускорить работу, или детально прорабатывать каждый шаг для повышения качества.

Выводы о будущем технологии

На данный момент модели ARDM находятся на ранней стадии развития. Как отмечает Кильчер, они пока не показывают результатов, превосходящих современные GAN или специализированные языковые модели, но их потенциал для задач, где важен гибкий порядок генерации или сжатие данных без потерь, весьма высок.

💬 Цитаты

«ARDM — это класс моделей, охватывающий и обобщающий порядок-агностические авторегрессионные модели.»

Янник Кильчер 01:57

«Вы можете сэкономить время, предсказывая несколько пикселей за один раз, но при этом идет обмен скорости на точность.»

Янник Кильчер 26:51
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Авторегрессия
Процесс генерации данных, при котором каждое новое значение зависит от предыдущих предсказанных значений.
Диффузионные модели
Тип генеративных моделей, которые обучаются восстанавливать данные из шума.
BERT
Архитектура модели, использующая механизм маскирования токенов для понимания контекста данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Autoregressive Diffusion Models Yannic Kilcher Google Research Generative Models