В новом видео Янник Килчер детально разбирает статью исследователей из OpenAI под названием «GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models». Авторы Алекс Никол, Прафулла Даривал, Адитья Рамеш и другие представили новый класс моделей генерации изображений по текстовому описанию, который по качеству и фотореализму обходит знаменитую DALL-E.
🎨 От DALL-E к GLIDE: новая эра генерации 0:01
Янник Килчер начинает обзор с демонстрации возможностей GLIDE (Guided Language-to-Image Diffusion for Generation and Editing). В отличие от предыдущих итераций нейросетей OpenAI, таких как DALL-E, которая использовала архитектуру VQ-VAE, GLIDE основана на так называемых диффузионных моделях .
Ключевое визуальное отличие, по мнению ведущего, заключается в четкости и фотореализме:
- DALL-E часто выдавала изображения с характерной «размытостью» или мультяшностью .
- GLIDE демонстрирует поразительную работу с тенями, стилями (например, стиль Сальвадора Дали) и сложными концепциями вроде «рисунка космического лифта мелками» или «корги-пиццы в стиле пиксель-арт» .
Особое внимание Килчер уделяет возможностям редактирования. Поскольку диффузионные модели работают итеративно, они идеально подходят для задачи in-painting (дорисовка внутри области) . Ведущий описывает сценарий интерактивного создания интерьера:
- Пользователь генерирует «уютную гостиную».
- Затем закрашивает область на стене и просит добавить «картину с корги над диваном».
- Далее добавляет «круглый кофейный столик» перед диваном . Модель учитывает контекст и освещение всей сцены, вписывая новые объекты максимально естественно. Также поддерживается редактирование по эскизам, где пользователь задает не только область маской, но и примерную цветовую схему .
🌀 Математика хаоса: как работают диффузионные модели 6:11
Кильчер подробно объясняет принцип работы диффузии, противопоставляя её генеративно-состязательным сетям (GAN). В GAN мы берем вектор случайного шума и через нейросеть превращаем его в картинку . Диффузионный процесс работает от обратного:
- Прямой процесс (Forward pass): Мы берем четкое изображение (например, кота) и постепенно добавляем в него крошечные порции гауссовского шума .
- Предел: Если повторять это бесконечно долго, любое изображение превратится в чистый классический шум (нормальное распределение) .
- Обучение: Нейросеть учат делать обратный шаг — глядя на чуть более зашумленную картинку, она должна предсказать, как выглядела чуть менее зашумленная версия .
Фактически, модель учится не рисовать картинку целиком, а «удалять шум». Во время генерации мы берем случайный шум и пропускаем его через модель сотни раз, пока из хаоса не проявится четкое изображение . Килчер отмечает техническую деталь: современные модели (включая GLIDE) обучаются предсказывать не саму картинку на предыдущем этапе, а именно шум ($\epsilon$), который был добавлен. Это упрощает обучение, так как шум имеет нулевое среднее и единичную дисперсию .
🧭 Направляемая диффузия: Classifier-free vs CLIP 21:37
Чтобы модель рисовала не «что-то», а именно то, что просит пользователь, процесс нужно направлять (guidance). Килчер описывает две основные стратегии:
- CLIP Guidance: Используется модель CLIP от OpenAI, которая оценивает, насколько текст соответствует картинке. Во время генерации мы вычисляем градиент от CLIP и буквально «толкаем» процесс диффузии в сторону соответствия тексту . Недостаток в том, что диффузия может найти «состязательные примеры» (adversarial examples) — картинки, которые кажутся CLIP идеальными, но для человека выглядят как визуальный мусор .
- Classifier-free Guidance: Метод, который Килчер называет «немного странным, но работающим». Во время обучения модель иногда получает текст, а иногда — нет (unconditional). При генерации мы вычисляем разницу между «предсказанием с текстом» и «предсказанием без текста» и экстраполируем этот вектор .
По данным статьи, Classifier-free Guidance оказался эффективнее: изображения получаются более фотореалистичными и точными . Янник признается, что считает этот метод своего рода «хаком», указывающим на то, что мы еще не до конца понимаем, как заставить модели использовать данные на 100% без дополнительных уловок на этапе вывода .
🏗️ Архитектура и масштабы OpenAI 34:00
GLIDE — это массивная система, состоящая из нескольких компонентов:
- Основная модель: 3,5 миллиарда параметров. Она генерирует изображение в низком разрешении 64x64 пикселя .
- Модель апсемплинга: 1,5 миллиарда параметров, которая увеличивает разрешение до финального .
- Текстовый кодировщик: Трансформер, который преобразует слова в эмбеддинги, понятные диффузионной модели.
Сравнивая с DALL-E, Янник отмечает, что GLIDE меньше по количеству параметров, но за счет диффузионного подхода дает гораздо более качественные результаты. При этом модель все еще имеет свои «слабости». Килчер показывает примеры неудач: модель не может нарисовать кота с восемью ногами, велосипед с гусеницами вместо колес или треугольные колеса у машины . По его мнению, DALL-E была более «чувствительна» к странным текстовым запросам, в то время как GLIDE слишком сильно стремится к реализму, иногда игнорируя абсурдные части промпта .
🛡️ Этические вопросы и «безопасность» OpenAI 39:40
В завершение Янник Килчер обрушивается с критикой на политику OpenAI в области безопасности. Компания выпустила в открытый доступ только уменьшенную версию модели, обученную на отфильтрованном датасете, выражая опасения по поводу создания дипфейков и дезинформации .
Позиция Килчера по этому вопросу:
- Скепсис: Он напоминает историю с GPT-2, которую также не хотели выпускать из соображений безопасности, но в итоге это не привело к мировому хаосу .
- Скрытые мотивы: Ведущий предполагает, что реальные причины могут быть маркетинговыми (желание продать доступ к большой модели через API), а не этическими .
- Путь обучения: Янник считает попытки ограничить доступ к технологиям бесполезными. Решением должна быть не цензура, а образование пользователей: люди должны привыкнуть к тому, что изображение — это не доказательство реальности, точно так же, как они привыкли не верить всему написанному в интернете .
Для желающих лично проверить технологию, Янник рекомендует воспользоваться демо-версией на Hugging Face (в пространстве пользователя valhalla), где можно протестировать малую версию GLIDE .