DeepFloyd IF: прорыв в пиксельной диффузии и будущее открытого ИИ
DeepFloyd IF — это модель генерации изображений по текстовому описанию (text-to-image), разработанная командой DeepFloyd, входящей в структуру Stability AI. В отличие от популярных решений вроде Stable Diffusion, работающих в скрытом (латентном) пространстве, DeepFloyd IF оперирует непосредственно в пространстве пикселей, что обеспечивает исключительную точность следования текстовым промптам и качественную отрисовку текста внутри изображений.
🧠 Архитектура и принципы работы 3:11
В основе архитектуры DeepFloyd IF лежит каскадная диффузионная модель, концептуально схожая с Google Imagen. Процесс генерации состоит из нескольких этапов:
- Текстовый энкодер: Модель использует замороженный (frozen) T5-XXL энкодер для преобразования текста в эмбеддинги. Исследователи подчеркивают, что использование именно «замороженного» и предобученного энкодера является критически важным фактором для высокого качества понимания сложных запросов.
- Каскадная генерация: Процесс разбит на три стадии, последовательно увеличивающие разрешение:
- Генерация базового изображения 64x64 пикселя.
- Апскейл (увеличение) до 256x256 пикселей.
- Финальный апскейл до 1024x1024 пикселей.
По словам разработчиков, выбор 64x64 в качестве базового разрешения обусловлен стремлением воспроизвести и улучшить архитектуру, предложенную в Imagen, а также эффективностью использования вычислительных ресурсов.
🛠 Эксперименты с энкодерами и оптимизация 12:08
Команда DeepFloyd провела обширные исследования, тестируя комбинации различных текстовых энкодеров, включая UL2 и CLIP.
- Выбор T5: Несмотря на то, что в статье по Imagen отмечалась схожая производительность CLIP и T5, внутреннее человеческое тестирование команды DeepFloyd показало превосходство T5 в качестве генерации (например, при отрисовке треугольных стоп-сигналов).
- Оптимальный U-Net: Команда разработала собственную архитектуру, которую они называют «оптимальным U-Net». В отличие от «эффективного U-Net» (Efficient U-Net) из Imagen, они увеличили количество слоев кросс-аттеншн (cross-attention) для более точного соответствия текстовым эмбеддингам.
📊 Проблемы оценки: метрика FID 25:07
Разработчики отмечают неоднозначность использования метрики FID (Fréchet Inception Distance) для оценки качества моделей.
- Отсутствие стандартов: Разные модели часто тестируются на разных подмножествах данных COCO, что делает прямое сравнение результатов статистически не всегда значимым.
- Историческое наследие: Использование 30 тысяч сэмплов для теста — сложившаяся историческая практика, но исследователи призывают сообщество к созданию фиксированного, стандартизированного набора данных для бенчмарков, чтобы избежать «подгонки» под случайные подвыборки.
🌍 Языковые способности и ограничения 34:36
Интересным побочным эффектом использования T5 стала мультиязычность модели. Хотя DeepFloyd IF обучалась преимущественно на английском датасете LAION-5B, она демонстрирует способность понимать запросы на некоторых европейских языках, таких как немецкий и французский.
Тем не менее, встречаются специфические ошибки токенизации: например, при запросе «Nationalgericht» (национальное блюдо) на немецком языке модель иногда генерирует изображение здания национального суда, так как «Gericht» в немецком также означает «суд».
💻 Практическое использование 42:16
Для запуска модели в домашних условиях разработчики рекомендуют:
- Требования: Видеокарта уровня NVIDIA RTX 4090 с 24 ГБ видеопамяти (VRAM) позволяет запускать крупнейшую версию модели (4.3 млрд параметров).
- Оптимизация промптов: Разработчики советуют повторять ключевые слова в запросе, если модель не сразу улавливает суть, а также использовать кавычки для разделения различных понятий в длинных промптах.
- Доступность: Команда активно сотрудничает с сообществом через Discord и Hugging Face, предоставляя доступ к модели по некоммерческой лицензии на этапе альфа-тестирования, с планами на дальнейшее расширение прав использования.