Янник Кильчер об архитектуре Autoregressive Diffusion Models

Yannic Kilcher 28,7 тыс. 34 мин 2 мин 10.11.2021
Главное

Авторегрессионные диффузионные модели: новый подход к генерации данных 0:00

В видеоролике автор канала Янник Кильчер (Yannic Kilcher) проводит подробный разбор научной статьи от исследователей Google о новом классе нейронных сетей — Autoregressive Diffusion Models (ARDM). Основная концепция исследования заключается в объединении преимуществ авторегрессионных моделей и диффузионных процессов, что позволяет генерировать данные (например, пиксели изображений) в произвольном порядке, а не только по жестко заданной схеме «слева направо».

Концепция и ключевые особенности модели 1:57

Традиционные авторегрессионные модели, такие как GPT, предсказывают токены последовательно, что накладывает ограничения на процесс генерации. В отличие от них, авторы статьи предлагают архитектуру, которая:

По словам Кильчера, одной из сильных сторон модели является возможность гибкого управления скоростью: пользователь может пожертвовать качеством ради более быстрой генерации, регулируя количество шагов.

Механика работы: от маскирования к генерации 6:22

Процесс генерации в ARDM принципиально отличается от подхода GAN (которые создают изображение целиком сразу) или стандартных авторегрессионных моделей.

  1. Начальное состояние: На вход поступает «пустой» вектор, где все переменные не определены.
  2. Предсказание распределения: Нейросеть предсказывает распределение вероятностей для всех элементов выборки одновременно.
  3. Итеративное декодирование: Выбирается один элемент, для которого фиксируется значение (семплируется), после чего процесс повторяется для оставшихся пустых ячеек.

Как отмечает ведущий, даже при параллельном обучении в стиле BERT, процесс декодирования остается авторегрессионным из-за зависимости данных друг от друга: например, цвет одного пикселя напрямую влияет на вероятность цвета соседнего.

Технологические расширения: скорость и детализация 26:12

Авторы статьи предлагают несколько методов для ускорения и улучшения работы ARDM:

Однако Янник Кильчер скептически относится к этому методу, замечая, что введение этапов «грубого» предсказания фактически возвращает нас к жестко фиксированному порядку декодирования, от которого авторы изначально пытались уйти. Кроме того, этот подход лучше работает с непрерывными данными (пиксели), чем с дискретными категориальными переменными (токены текста).

Резюме и перспективы 33:18

На текущем этапе развития ARDM не являются «state-of-the-art» и пока не могут соревноваться с узкоспециализированными моделями, оптимизированными под конкретный порядок генерации,. Тем не менее, Кильчер считает предложенный подход перспективным, особенно в контексте предоставления пользователям контроля над балансом между скоростью вычислений и качеством результата.

💬 Цитаты

«Мы можем, например, семплировать изображения попиксельно, чтобы сделать генеративную модель.»

Янник Кильчер 0:40

«Модели обучаются как BERT, но декодируют как авторегрессионные модели, за исключением того, что порядок не фиксирован.»

Янник Кильчер 14:15
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Autoregressive Diffusion Models (ARDM)
Класс моделей, позволяющих генерировать переменные в любом порядке, объединяя свойства диффузионных и авторегрессионных моделей.
BERT
Модель трансформер, обученная предсказывать замаскированные токены в тексте.
Динамическое программирование
Метод оптимизации, используемый в моделях для поиска эффективного пути генерации данных при заданном бюджете.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Autoregressive Diffusion Models Yannic Kilcher Google Research