# Янник Кильчер: «Autoregressive Diffusion Models меняют порядок генерации»

Источник: https://www.youtube.com/watch?v=2h4tRsQzipQ
Канал: Yannic Kilcher
Опубликовано: 10.11.2021

---

## Авторегрессионные диффузионные модели: свобода порядка генерации [[JUMP:0:00]]

Исследователи из Google Research предложили новый класс моделей — **Autoregressive Diffusion Models (ARDM)**, которые объединяют гибкость авторегрессионных моделей с эффективностью методов диффузии. В своем обзоре Янник Кильчер (Yannic Kilcher) анализирует концепцию, позволяющую декодировать переменные в произвольном порядке, что кардинально отличается от привычных подходов, где данные генерируются жестко по цепочке.

### В чем суть инновации? [[JUMP:0:00]]

Традиционные авторегрессионные модели, такие как GPT, генерируют токены строго последовательно: слева направо или сверху вниз. По мнению Кильчера, такой подход навязывает модели искусственные ограничения, так как порядок чтения текста не всегда является оптимальным для генерации.

*   **ARDM** позволяют выбирать любой порядок декодирования данных (пикселей или токенов).
*   Модели можно задать генерацию нескольких элементов одновременно, что значительно ускоряет процесс, предлагая пользователю гибкий баланс между скоростью работы и качеством результата.
*   В процессе обучения модель «видит» данные в разных порядках, что делает её более устойчивой и универсальной по сравнению с узкоспециализированными последовательными моделями.

### Механика работы: BERT в последовательности [[JUMP:8:38]]

Кильчер отмечает, что архитектурно ARDM напоминают модель BERT, где используется маскирование токенов. В процессе обучения часть данных скрывается («маскируется»), и нейросеть учится предсказывать распределение вероятностей для всех отсутствующих элементов одновременно.

Однако здесь кроется ключевое различие между обучением и генерацией:

1.  **Обучение:** Модель предсказывает все недостающие данные сразу, что очень эффективно.
2.  **Генерация:** Несмотря на то, что модель может предсказать всё сразу, элементы данных взаимозависимы. Если пиксели в изображении зависят друг от друга, нельзя просто сэмплировать их независимо — необходимо совершить «выбор», который изменит распределение вероятностей для оставшихся элементов.

По словам ведущего, именно это делает ARDM «авторегрессионными» в фазе генерации, даже если порядок действий не задан жестко изначально.

### Баланс скорости и качества [[JUMP:26:12]]

Одной из главных особенностей ARDM является возможность адаптивного управления генерацией. Пользователь может распределить «бюджет» шагов: например, генерировать больше данных за один проход, если нужно ускорить работу, или детально прорабатывать каждый шаг для повышения качества.

*   **Динамическое программирование:** Исследователи предлагают алгоритм для поиска оптимального пути декодирования, позволяющий эффективно распределить нагрузку при заданном количестве шагов.
*   **Иерархическое масштабирование (Depth Upscaling):** Метод, при котором модель сначала делает грубые предсказания (например, делит яркость пикселя пополам), а затем постепенно уточняет детали. Кильчер отмечает ироничный нюанс: этот метод по сути возвращает нас к фиксированному порядку генерации, от которого авторы пытались уйти, и применим в основном к непрерывным данным вроде яркости пикселей, а не к дискретным токенам языка.

### Выводы о будущем технологии [[JUMP:33:18]]

На данный момент модели ARDM находятся на ранней стадии развития. Как отмечает Кильчер, они пока не показывают результатов, превосходящих современные GAN или специализированные языковые модели, но их потенциал для задач, где важен гибкий порядок генерации или сжатие данных без потерь, весьма высок.