DeepFloyd IF: прорыв в пиксельной диффузии и будущее открытого ИИ

0:00

DeepFloyd IF — это модель генерации изображений по текстовому описанию (text-to-image), разработанная командой DeepFloyd, входящей в структуру Stability AI. В отличие от популярных решений вроде Stable Diffusion, работающих в скрытом (латентном) пространстве, DeepFloyd IF оперирует непосредственно в пространстве пикселей, что обеспечивает исключительную точность следования текстовым промптам и качественную отрисовку текста внутри изображений.

🧠 Архитектура и принципы работы 3:11

В основе архитектуры DeepFloyd IF лежит каскадная диффузионная модель, концептуально схожая с Google Imagen. Процесс генерации состоит из нескольких этапов:

Текстовый энкодер: Модель использует замороженный (frozen) T5-XXL энкодер для преобразования текста в эмбеддинги. Исследователи подчеркивают, что использование именно «замороженного» и предобученного энкодера является критически важным фактором для высокого качества понимания сложных запросов.
Каскадная генерация: Процесс разбит на три стадии, последовательно увеличивающие разрешение:
1. Генерация базового изображения 64x64 пикселя.
2. Апскейл (увеличение) до 256x256 пикселей.
3. Финальный апскейл до 1024x1024 пикселей.

По словам разработчиков, выбор 64x64 в качестве базового разрешения обусловлен стремлением воспроизвести и улучшить архитектуру, предложенную в Imagen, а также эффективностью использования вычислительных ресурсов.

🛠 Эксперименты с энкодерами и оптимизация 12:08

Команда DeepFloyd провела обширные исследования, тестируя комбинации различных текстовых энкодеров, включая UL2 и CLIP.

Выбор T5: Несмотря на то, что в статье по Imagen отмечалась схожая производительность CLIP и T5, внутреннее человеческое тестирование команды DeepFloyd показало превосходство T5 в качестве генерации (например, при отрисовке треугольных стоп-сигналов).
Оптимальный U-Net: Команда разработала собственную архитектуру, которую они называют «оптимальным U-Net». В отличие от «эффективного U-Net» (Efficient U-Net) из Imagen, они увеличили количество слоев кросс-аттеншн (cross-attention) для более точного соответствия текстовым эмбеддингам.

📊 Проблемы оценки: метрика FID 25:07

Разработчики отмечают неоднозначность использования метрики FID (Fréchet Inception Distance) для оценки качества моделей.

Отсутствие стандартов: Разные модели часто тестируются на разных подмножествах данных COCO, что делает прямое сравнение результатов статистически не всегда значимым.
Историческое наследие: Использование 30 тысяч сэмплов для теста — сложившаяся историческая практика, но исследователи призывают сообщество к созданию фиксированного, стандартизированного набора данных для бенчмарков, чтобы избежать «подгонки» под случайные подвыборки.

🌍 Языковые способности и ограничения 34:36

Интересным побочным эффектом использования T5 стала мультиязычность модели. Хотя DeepFloyd IF обучалась преимущественно на английском датасете LAION-5B, она демонстрирует способность понимать запросы на некоторых европейских языках, таких как немецкий и французский.

Тем не менее, встречаются специфические ошибки токенизации: например, при запросе «Nationalgericht» (национальное блюдо) на немецком языке модель иногда генерирует изображение здания национального суда, так как «Gericht» в немецком также означает «суд».

💻 Практическое использование 42:16

Для запуска модели в домашних условиях разработчики рекомендуют:

Требования: Видеокарта уровня NVIDIA RTX 4090 с 24 ГБ видеопамяти (VRAM) позволяет запускать крупнейшую версию модели (4.3 млрд параметров).
Оптимизация промптов: Разработчики советуют повторять ключевые слова в запросе, если модель не сразу улавливает суть, а также использовать кавычки для разделения различных понятий в длинных промптах.
Доступность: Команда активно сотрудничает с сообществом через Discord и Hugging Face, предоставляя доступ к модели по некоммерческой лицензии на этапе альфа-тестирования, с планами на дальнейшее расширение прав использования.

DeepFloyd IF: архитектура, эксперименты и будущее пиксельной диффузии