# DeepFloyd IF: архитектура, эксперименты и будущее пиксельной диффузии

Источник: https://www.youtube.com/watch?v=UXdM7pjYZfs
Канал: Yannic Kilcher
Опубликовано: 12.08.2023

---

# DeepFloyd IF: прорыв в пиксельной диффузии и будущее открытого ИИ

[[JUMP:00:00]]

DeepFloyd IF — это модель генерации изображений по текстовому описанию (text-to-image), разработанная командой DeepFloyd, входящей в структуру Stability AI. В отличие от популярных решений вроде Stable Diffusion, работающих в скрытом (латентном) пространстве, DeepFloyd IF оперирует непосредственно в пространстве пикселей, что обеспечивает исключительную точность следования текстовым промптам и качественную отрисовку текста внутри изображений.

## 🧠 Архитектура и принципы работы
[[JUMP:03:11]]

В основе архитектуры DeepFloyd IF лежит каскадная диффузионная модель, концептуально схожая с Google Imagen. Процесс генерации состоит из нескольких этапов:

*   **Текстовый энкодер:** Модель использует замороженный (frozen) T5-XXL энкодер для преобразования текста в эмбеддинги. Исследователи подчеркивают, что использование именно «замороженного» и предобученного энкодера является критически важным фактором для высокого качества понимания сложных запросов.
*   **Каскадная генерация:** Процесс разбит на три стадии, последовательно увеличивающие разрешение:
    1.  Генерация базового изображения 64x64 пикселя.
    2.  Апскейл (увеличение) до 256x256 пикселей.
    3.  Финальный апскейл до 1024x1024 пикселей.

По словам разработчиков, выбор 64x64 в качестве базового разрешения обусловлен стремлением воспроизвести и улучшить архитектуру, предложенную в Imagen, а также эффективностью использования вычислительных ресурсов.

## 🛠 Эксперименты с энкодерами и оптимизация
[[JUMP:12:08]]

Команда DeepFloyd провела обширные исследования, тестируя комбинации различных текстовых энкодеров, включая UL2 и CLIP.

*   **Выбор T5:** Несмотря на то, что в статье по Imagen отмечалась схожая производительность CLIP и T5, внутреннее человеческое тестирование команды DeepFloyd показало превосходство T5 в качестве генерации (например, при отрисовке треугольных стоп-сигналов).
*   **Оптимальный U-Net:** Команда разработала собственную архитектуру, которую они называют «оптимальным U-Net». В отличие от «эффективного U-Net» (Efficient U-Net) из Imagen, они увеличили количество слоев кросс-аттеншн (cross-attention) для более точного соответствия текстовым эмбеддингам.

## 📊 Проблемы оценки: метрика FID
[[JUMP:25:07]]

Разработчики отмечают неоднозначность использования метрики FID (Fréchet Inception Distance) для оценки качества моделей.

*   **Отсутствие стандартов:** Разные модели часто тестируются на разных подмножествах данных COCO, что делает прямое сравнение результатов статистически не всегда значимым.
*   **Историческое наследие:** Использование 30 тысяч сэмплов для теста — сложившаяся историческая практика, но исследователи призывают сообщество к созданию фиксированного, стандартизированного набора данных для бенчмарков, чтобы избежать «подгонки» под случайные подвыборки.

## 🌍 Языковые способности и ограничения
[[JUMP:34:36]]

Интересным побочным эффектом использования T5 стала мультиязычность модели. Хотя DeepFloyd IF обучалась преимущественно на английском датасете LAION-5B, она демонстрирует способность понимать запросы на некоторых европейских языках, таких как немецкий и французский.

Тем не менее, встречаются специфические ошибки токенизации: например, при запросе «Nationalgericht» (национальное блюдо) на немецком языке модель иногда генерирует изображение здания национального суда, так как «Gericht» в немецком также означает «суд».

## 💻 Практическое использование
[[JUMP:42:16]]

Для запуска модели в домашних условиях разработчики рекомендуют:

*   **Требования:** Видеокарта уровня NVIDIA RTX 4090 с 24 ГБ видеопамяти (VRAM) позволяет запускать крупнейшую версию модели (4.3 млрд параметров).
*   **Оптимизация промптов:** Разработчики советуют повторять ключевые слова в запросе, если модель не сразу улавливает суть, а также использовать кавычки для разделения различных понятий в длинных промптах.
*   **Доступность:** Команда активно сотрудничает с сообществом через Discord и Hugging Face, предоставляя доступ к модели по некоммерческой лицензии на этапе альфа-тестирования, с планами на дальнейшее расширение прав использования.