# Как работает GLIDE от OpenAI: диффузионные модели против DALL-E

Источник: https://www.youtube.com/watch?v=gwI6g1pBD84
Канал: Yannic Kilcher
Опубликовано: 28.12.2021

---

В новом видео Янник Килчер детально разбирает статью исследователей из OpenAI под названием **«GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models»**. Авторы Алекс Никол, Прафулла Даривал, Адитья Рамеш и другие представили новый класс моделей генерации изображений по текстовому описанию, который по качеству и фотореализму обходит знаменитую DALL-E.

## 🎨 От DALL-E к GLIDE: новая эра генерации
[[JUMP:00:01]]

Янник Килчер начинает обзор с демонстрации возможностей GLIDE (Guided Language-to-Image Diffusion for Generation and Editing). В отличие от предыдущих итераций нейросетей OpenAI, таких как DALL-E, которая использовала архитектуру VQ-VAE, GLIDE основана на так называемых **диффузионных моделях** [00:28]. 

Ключевое визуальное отличие, по мнению ведущего, заключается в четкости и фотореализме:

*   DALL-E часто выдавала изображения с характерной «размытостью» или мультяшностью [00:54].
*   GLIDE демонстрирует поразительную работу с тенями, стилями (например, стиль Сальвадора Дали) и сложными концепциями вроде «рисунка космического лифта мелками» или «корги-пиццы в стиле пиксель-арт» [01:07].

Особое внимание Килчер уделяет возможностям редактирования. Поскольку диффузионные модели работают итеративно, они идеально подходят для задачи **in-painting** (дорисовка внутри области) [01:45]. Ведущий описывает сценарий интерактивного создания интерьера:

1.  Пользователь генерирует «уютную гостиную». 
2.  Затем закрашивает область на стене и просит добавить «картину с корги над диваном».
3.  Далее добавляет «круглый кофейный столик» перед диваном [02:38].
Модель учитывает контекст и освещение всей сцены, вписывая новые объекты максимально естественно. Также поддерживается редактирование по эскизам, где пользователь задает не только область маской, но и примерную цветовую схему [03:45].

## 🌀 Математика хаоса: как работают диффузионные модели
[[JUMP:06:11]]

Кильчер подробно объясняет принцип работы диффузии, противопоставляя её генеративно-состязательным сетям (GAN). В GAN мы берем вектор случайного шума и через нейросеть превращаем его в картинку [06:36]. Диффузионный процесс работает от обратного:

*   **Прямой процесс (Forward pass):** Мы берем четкое изображение (например, кота) и постепенно добавляем в него крошечные порции гауссовского шума [07:26]. 
*   **Предел:** Если повторять это бесконечно долго, любое изображение превратится в чистый классический шум (нормальное распределение) [08:21].
*   **Обучение:** Нейросеть учат делать обратный шаг — глядя на чуть более зашумленную картинку, она должна предсказать, как выглядела чуть менее зашумленная версия [09:15]. 

Фактически, модель учится не рисовать картинку целиком, а «удалять шум». Во время генерации мы берем случайный шум и пропускаем его через модель сотни раз, пока из хаоса не проявится четкое изображение [10:34]. Килчер отмечает техническую деталь: современные модели (включая GLIDE) обучаются предсказывать не саму картинку на предыдущем этапе, а именно **шум ($\epsilon$)**, который был добавлен. Это упрощает обучение, так как шум имеет нулевое среднее и единичную дисперсию [16:30].

## 🧭 Направляемая диффузия: Classifier-free vs CLIP
[[JUMP:21:37]]

Чтобы модель рисовала не «что-то», а именно то, что просит пользователь, процесс нужно направлять (guidance). Килчер описывает две основные стратегии:

1.  **CLIP Guidance:** Используется модель CLIP от OpenAI, которая оценивает, насколько текст соответствует картинке. Во время генерации мы вычисляем градиент от CLIP и буквально «толкаем» процесс диффузии в сторону соответствия тексту [22:42]. Недостаток в том, что диффузия может найти «состязательные примеры» (adversarial examples) — картинки, которые кажутся CLIP идеальными, но для человека выглядят как визуальный мусор [30:40].
2.  **Classifier-free Guidance:** Метод, который Килчер называет «немного странным, но работающим». Во время обучения модель иногда получает текст, а иногда — нет (unconditional). При генерации мы вычисляем разницу между «предсказанием с текстом» и «предсказанием без текста» и экстраполируем этот вектор [27:33]. 

По данным статьи, **Classifier-free Guidance** оказался эффективнее: изображения получаются более фотореалистичными и точными [36:47]. Янник признается, что считает этот метод своего рода «хаком», указывающим на то, что мы еще не до конца понимаем, как заставить модели использовать данные на 100% без дополнительных уловок на этапе вывода [24:02].

## 🏗️ Архитектура и масштабы OpenAI
[[JUMP:34:00]]

GLIDE — это массивная система, состоящая из нескольких компонентов:

*   **Основная модель:** 3,5 миллиарда параметров. Она генерирует изображение в низком разрешении 64x64 пикселя [34:12].
*   **Модель апсемплинга:** 1,5 миллиарда параметров, которая увеличивает разрешение до финального [34:25].
*   **Текстовый кодировщик:** Трансформер, который преобразует слова в эмбеддинги, понятные диффузионной модели.

Сравнивая с DALL-E, Янник отмечает, что GLIDE меньше по количеству параметров, но за счет диффузионного подхода дает гораздо более качественные результаты. При этом модель все еще имеет свои «слабости». Килчер показывает примеры неудач: модель не может нарисовать кота с восемью ногами, велосипед с гусеницами вместо колес или треугольные колеса у машины [37:12]. По его мнению, DALL-E была более «чувствительна» к странным текстовым запросам, в то время как GLIDE слишком сильно стремится к реализму, иногда игнорируя абсурдные части промпта [37:26].

## 🛡️ Этические вопросы и «безопасность» OpenAI
[[JUMP:39:40]]

В завершение Янник Килчер обрушивается с критикой на политику OpenAI в области безопасности. Компания выпустила в открытый доступ только уменьшенную версию модели, обученную на отфильтрованном датасете, выражая опасения по поводу создания дипфейков и дезинформации [39:54].

Позиция Килчера по этому вопросу:

*   **Скепсис:** Он напоминает историю с GPT-2, которую также не хотели выпускать из соображений безопасности, но в итоге это не привело к мировому хаосу [40:36].
*   **Скрытые мотивы:** Ведущий предполагает, что реальные причины могут быть маркетинговыми (желание продать доступ к большой модели через API), а не этическими [40:50].
*   **Путь обучения:** Янник считает попытки ограничить доступ к технологиям бесполезными. Решением должна быть не цензура, а образование пользователей: люди должны привыкнуть к тому, что изображение — это не доказательство реальности, точно так же, как они привыкли не верить всему написанному в интернете [41:16].

Для желающих лично проверить технологию, Янник рекомендует воспользоваться демо-версией на Hugging Face (в пространстве пользователя valhalla), где можно протестировать малую версию GLIDE [37:53].