В конце 2021 года компания OpenAI представила GLIDE — новую архитектуру генерации изображений по текстовому описанию, которая по многим параметрам превзошла знаменитую модель DALL-E. В своем обзоре Янник Килчер (Yannic Kilcher) подробно разбирает техническую сторону проекта, объясняет принцип работы диффузионных моделей и критикует политику OpenAI в отношении безопасности ИИ.
🎨 Текстовая диффузия: новый стандарт качества 0:01
Модель GLIDE (Guided Language-to-Image Diffusion for Generation and Editing) представляет собой новый класс генеративных алгоритмов — диффузионные модели . В отличие от предыдущих итераций вроде DALL-E, которая часто выдавала «замыленные» или мультяшные результаты, GLIDE способна генерировать фотореалистичные изображения с корректным освещением, тенями и сложными текстурами .
Янник Килчер (Yannic Kilcher) отмечает ключевые особенности результатов:
- Стилевое разнообразие: Модель понимает концепции «пиксель-арт», «рисунок карандашом» или стиль конкретных художников, таких как Сальвадор Дали .
- Композиция: GLIDE успешно объединяет редкие объекты, например, «космический лифт» или «корги в виде пиксель-арта» .
- Реализм: Сравнение с базой MS COCO показывает, что GLIDE значительно превосходит DALL-E в четкости деталей, таких как формы животных и конструктивные элементы поездов .
🛠 Как работают диффузионные модели 6:11
Основное отличие диффузионной модели от GAN (генеративно-состязательных сетей) заключается в подходе к шуму. Если GAN пытается отобразить вектор случайного шума сразу в готовое изображение, то диффузионная модель работает итеративно .
Процесс обучения строится следующим образом:
- Прямая диффузия: В обучающее изображение (например, фото кота) постепенно добавляется гауссов шум шаг за шагом . На финальном этапе изображение превращается в чистый статистический шум .
- Обратная диффузия: Нейросеть обучается выполнять обратную задачу — предсказывать, какой именно шум был добавлен на конкретном шаге, чтобы «очистить» изображение .
- Генерация: Для создания новой картинки модель берет чистый шум и проходит через сотни шагов очистки, постепенно «проявляя» изображение из хаоса .
По словам Янника Килчера (Yannic Kilcher), технически модель предсказывает не само изображение, а именно параметры шума ($\epsilon$), который нужно вычесть. Это математически проще для обучения нейросети .
🧭 Управление генерацией: Classifier-Free Guidance против CLIP 21:37
Чтобы модель рисовала именно то, что просит пользователь, процесс диффузии нужно «направлять». OpenAI исследовали два метода:
- CLIP Guidance: Использование внешней модели CLIP для оценки соответствия картинки тексту на каждом шаге генерации . Модель движется по градиенту этой оценки.
- Classifier-Free Guidance (CFG): Метод, при котором одна и та же модель обучается и как условная (с текстом), и как безусловная (без текста) .
Янник Килчер (Yannic Kilcher) поясняет, что в режиме CFG модель сравнивает два предсказания: «как бы я дорисовала это с учетом текста» и «как бы я дорисовала это вообще» . Разница между этими путями показывает чистое влияние текста. Увеличивая масштаб этой разницы (параметр $s > 1$), можно заставить модель гиперболизировать соответствие запросу .
По результатам тестов OpenAI, Classifier-Free Guidance оказался эффективнее: человеческие респонденты оценили такие изображения как более фотореалистичные и точные .
🖼 Редактирование и In-painting: интерактивное творчество 1:45
Одним из главных преимуществ GLIDE стала возможность локального редактирования (In-painting). Поскольку диффузия работает попиксельно, можно маскировать часть изображения и просить модель перерисовать только её .
Янник Килчер (Yannic Kilcher) демонстрирует примеры итеративного создания интерьера:
- Сначала генерируется пустая гостиная .
- Затем пользователь выделяет область на стене и пишет «картина с корги», и модель органично вписывает её в освещение комнаты .
- Далее добавляется кофейный столик перед диваном и так далее .
Также модель поддерживает «скетч-редактирование», где помимо текста пользователь может задать грубые цветовые пятна, определяя композицию будущего объекта .
⚠️ Критика OpenAI и вопросы безопасности 39:40
OpenAI выпустили в открытый доступ только уменьшенную версию GLIDE (фильтрованную модель на 300 млн параметров вместо 3.5 млрд), мотивируя это борьбой с дипфейками и дезинформацией . Янник Килчер (Yannic Kilcher) относится к этим аргументам крайне скептически.
По мнению Янника Килчера (Yannic Kilcher), опасения OpenAI по поводу того, что их модели «ввергнут мир в хаос», не подтвердились на примере GPT-2 . Ведущий утверждает:
- Реальная причина ограничений может быть коммерческой — желание продавать доступ к более мощным API .
- Блокировка технологий бесполезна, так как их всё равно воспроизведут.
- Единственный путь — обучение общества критическому восприятию контента. Люди должны привыкнуть, что изображение (как и текст письма) больше не является автоматическим доказательством правды .
В практической части Янник Килчер (Yannic Kilcher) тестирует доступную малую модель и отмечает, что она всё ещё склонна к ошибкам в сложной логике (например, «машина с треугольными колесами» всё равно получается с круглыми) и иногда странно интерпретирует текст, путая политическую «партию» с «днем рождения» .