# GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

Источник: https://www.youtube.com/watch?v=gwI6g1pBD84
Канал: Yannic Kilcher
Опубликовано: 28.12.2021

---

В конце 2021 года компания OpenAI представила GLIDE — новую архитектуру генерации изображений по текстовому описанию, которая по многим параметрам превзошла знаменитую модель DALL-E. В своем обзоре Янник Килчер (Yannic Kilcher) подробно разбирает техническую сторону проекта, объясняет принцип работы диффузионных моделей и критикует политику OpenAI в отношении безопасности ИИ.

## 🎨 Текстовая диффузия: новый стандарт качества
[[JUMP:00:01]]

Модель GLIDE (Guided Language-to-Image Diffusion for Generation and Editing) представляет собой новый класс генеративных алгоритмов — диффузионные модели [00:28]. В отличие от предыдущих итераций вроде DALL-E, которая часто выдавала «замыленные» или мультяшные результаты, GLIDE способна генерировать фотореалистичные изображения с корректным освещением, тенями и сложными текстурами [01:07].

Янник Килчер (Yannic Kilcher) отмечает ключевые особенности результатов:

*   **Стилевое разнообразие:** Модель понимает концепции «пиксель-арт», «рисунок карандашом» или стиль конкретных художников, таких как Сальвадор Дали [01:19].
*   **Композиция:** GLIDE успешно объединяет редкие объекты, например, «космический лифт» или «корги в виде пиксель-арта» [01:32].
*   **Реализм:** Сравнение с базой MS COCO показывает, что GLIDE значительно превосходит DALL-E в четкости деталей, таких как формы животных и конструктивные элементы поездов [04:24].

## 🛠 Как работают диффузионные модели
[[JUMP:06:11]]

Основное отличие диффузионной модели от GAN (генеративно-состязательных сетей) заключается в подходе к шуму. Если GAN пытается отобразить вектор случайного шума сразу в готовое изображение, то диффузионная модель работает итеративно [06:36].

Процесс обучения строится следующим образом:

1.  **Прямая диффузия:** В обучающее изображение (например, фото кота) постепенно добавляется гауссов шум шаг за шагом [07:26]. На финальном этапе изображение превращается в чистый статистический шум [08:34].
2.  **Обратная диффузия:** Нейросеть обучается выполнять обратную задачу — предсказывать, какой именно шум был добавлен на конкретном шаге, чтобы «очистить» изображение [09:15].
3.  **Генерация:** Для создания новой картинки модель берет чистый шум и проходит через сотни шагов очистки, постепенно «проявляя» изображение из хаоса [10:34].

По словам Янника Килчера (Yannic Kilcher), технически модель предсказывает не само изображение, а именно параметры шума ($\epsilon$), который нужно вычесть. Это математически проще для обучения нейросети [16:30].

## 🧭 Управление генерацией: Classifier-Free Guidance против CLIP
[[JUMP:21:37]]

Чтобы модель рисовала именно то, что просит пользователь, процесс диффузии нужно «направлять». OpenAI исследовали два метода:

1.  **CLIP Guidance:** Использование внешней модели CLIP для оценки соответствия картинки тексту на каждом шаге генерации [22:42]. Модель движется по градиенту этой оценки.
2.  **Classifier-Free Guidance (CFG):** Метод, при котором одна и та же модель обучается и как условная (с текстом), и как безусловная (без текста) [24:39].

Янник Килчер (Yannic Kilcher) поясняет, что в режиме CFG модель сравнивает два предсказания: «как бы я дорисовала это с учетом текста» и «как бы я дорисовала это вообще» [27:33]. Разница между этими путями показывает чистое влияние текста. Увеличивая масштаб этой разницы (параметр $s > 1$), можно заставить модель гиперболизировать соответствие запросу [28:15]. 

По результатам тестов OpenAI, Classifier-Free Guidance оказался эффективнее: человеческие респонденты оценили такие изображения как более фотореалистичные и точные [36:47].

## 🖼 Редактирование и In-painting: интерактивное творчество
[[JUMP:01:45]]

Одним из главных преимуществ GLIDE стала возможность локального редактирования (In-painting). Поскольку диффузия работает попиксельно, можно маскировать часть изображения и просить модель перерисовать только её [01:58].

Янник Килчер (Yannic Kilcher) демонстрирует примеры итеративного создания интерьера:

*   Сначала генерируется пустая гостиная [02:25].
*   Затем пользователь выделяет область на стене и пишет «картина с корги», и модель органично вписывает её в освещение комнаты [02:38].
*   Далее добавляется кофейный столик перед диваном и так далее [03:05].

Также модель поддерживает «скетч-редактирование», где помимо текста пользователь может задать грубые цветовые пятна, определяя композицию будущего объекта [03:31].

## ⚠️ Критика OpenAI и вопросы безопасности
[[JUMP:39:40]]

OpenAI выпустили в открытый доступ только уменьшенную версию GLIDE (фильтрованную модель на 300 млн параметров вместо 3.5 млрд), мотивируя это борьбой с дипфейками и дезинформацией [39:54]. Янник Килчер (Yannic Kilcher) относится к этим аргументам крайне скептически.

По мнению Янника Килчера (Yannic Kilcher), опасения OpenAI по поводу того, что их модели «ввергнут мир в хаос», не подтвердились на примере GPT-2 [40:36]. Ведущий утверждает:

*   Реальная причина ограничений может быть коммерческой — желание продавать доступ к более мощным API [41:02].
*   Блокировка технологий бесполезна, так как их всё равно воспроизведут.
*   Единственный путь — обучение общества критическому восприятию контента. Люди должны привыкнуть, что изображение (как и текст письма) больше не является автоматическим доказательством правды [41:43].

В практической части Янник Килчер (Yannic Kilcher) тестирует доступную малую модель и отмечает, что она всё ещё склонна к ошибкам в сложной логике (например, «машина с треугольными колесами» всё равно получается с круглыми) и иногда странно интерпретирует текст, путая политическую «партию» с «днем рождения» [37:40].