# Эпоха текстовых генераторов: детальный разбор Imagen, DALL-E 2 и CogView 2

Источник: https://www.youtube.com/watch?v=af6WPqvzjjk
Канал: Yannic Kilcher
Опубликовано: 07.08.2022

---

Лето 2022 года ознаменовалось беспрецедентным прорывом в области генеративного искусства. Янник Килчер (Yannic Kilcher) в свежем выпуске ML News проводит детальный обзор систем, которые превращают текст в высококачественные изображения, анализирует технические инновации Google и OpenAI, а также обсуждает этические вызовы, связанные с новой технологией.

## 🎨 Imagen: Триумф простоты и масштабирования от Google
[[JUMP:00:24]]

Google Research (Торонто) представила систему Imagen — диффузионную модель, которая демонстрирует поразительную точность следования текстовым запросам [0:37]. По мнению Янника Килчера, за последние несколько месяцев качество подобных моделей улучшилось настолько стремительно, что это можно назвать беспрецедентным прогрессом в области ИИ [1:02].

Архитектура Imagen примечательна своей относительной простотой по сравнению с конкурентами вроде DALL-E 2 [1:27]. Процесс генерации разделен на четкие этапы:

1.  **Кодирование текста:** Используется замороженный (frozen) текстовый энкодер. Он не обучается вместе с основной моделью, а берется в готовом виде после обучения на чисто текстовых данных [1:41].
2.  **Базовая генерация:** Текстовое эмбеддинг подается в диффузионную модель, которая создает изображение низкого разрешения (64x64 пикселя) [2:08].
3.  **Суперразрешение:** Изображение проходит через два этапа повышения качества — сначала до 256x256, затем до 1024x1024 пикселей [2:22].

Янник Килчер подчеркивает важный вывод исследователей Google: увеличение размера предобученного текстового энкодера дает гораздо больший прирост качества и точности изображения, чем увеличение самой диффузионной модели [3:01]. Это означает, что для ИИ-художника понимание нюансов языка важнее, чем сам процесс рисования.

### Технические нюансы: Динамическое пороговое значение и «хак» с весами
В Imagen реализована техника динамического порогового значения (dynamic thresholding) [4:53]. В процессе диффузии (превращения шума в картинку) значения пикселей могут выходить за допустимые рамки. Вместо того чтобы просто обрезать их, Imagen динамически сжимает диапазон значений на каждом шаге [5:05]. Это позволяет использовать очень большие веса «классификаторного руководства» (classifier-free guidance) без потери фотореализма [5:18].

Сам метод классификаторного руководства Янник Килчер называет «хитрым хаком» [5:32]. Модель обучают генерировать изображения как с текстом, так и без него. Во время работы ИИ вычисляет разницу между этими двумя вариантами и искусственно усиливает её, заставляя систему максимально концентрироваться на смысле текстового запроса [6:13].

## 🌐 Unified-IO: Одна модель для всех визуальных задач
[[JUMP:07:06]]

Институт ИИ Аллена (Allen Institute for AI) представил Unified-IO — модель с беспрецедентным охватом задач [7:18]. В отличие от узкоспециализированных систем, Unified-IO способна выполнять:

*   Генерацию изображений по тексту;
*   Сегментацию (выделение объектов на фото);
*   Оценку позы человека;
*   Аннотирование регионов изображения [7:31].

Секрет универсальности заключается в едином словаре токенов [7:46]. Все входные данные — будь то пиксели, координаты рамок (bounding boxes) или текст — переводятся на один «язык». Модель работает как классический трансформер (в стиле T5), предсказывая последовательность токенов, которые затем декодируются обратно в нужный формат: картинку или текст [8:24].

## 🐉 CogView 2: Быстрая генерация на двух языках
[[JUMP:09:43]]

Исследователи из Университета Цинхуа представили CogView 2. Эта модель работает с английским и китайским языками и значительно превосходит первую версию по скорости и качеству [9:56].

Основные архитектурные решения CogView 2:

*   **Иерархические трансформеры:** Вместо полностью авторегрессионной генерации (по одному пикселю за раз) используются частично двунаправленные модели [10:22].
*   **Локальное внимание:** Модель обучается заполнять локальные части изображения, учитывая контекст остальных токенов. Это позволяет генерировать разные фрагменты картинки параллельно, что колоссально ускоряет работу [10:50].

## 🚫 Этический барьер: Google запрещает Deepfakes в Colab
[[JUMP:11:03]]

Сервис Google Colab обновил правила пользования, запретив создание дипфейков (deepfakes) на своих мощностях [11:16]. Хотя Google имеет полное право устанавливать правила на своей платформе, Янник Килчер видит в этом определенную «серую зону» [12:09]. 

Автор задается вопросом: как именно Google будет определять нарушение? [11:29] Существует множество безобидных исследовательских проектов, которые технически могут попасть под размытое определение дипфейка. По мнению Килчера, подобные запреты, основанные на внутреннем усмотрении корпорации, всегда несут риск произвольного применения [13:00]. Тем не менее, это решение должно отсечь массового пользователя, который просто запускает готовые скрипты, не понимая принципов работы кода [11:55].

## 📸 Искусственный интеллект на обложке Cosmopolitan
[[JUMP:13:01]]

Журнал Cosmopolitan выпустил первый в мире номер с обложкой, созданной DALL-E 2 [13:12]. Заголовки гласили, что на создание изображения ушло всего 20 секунд, однако Янник Килчер называет это утверждение кликбейтом [14:42]. 

Хотя сама генерация в облаке OpenAI действительно занимает секунды, реальный процесс работы художницы Карен Икс Ченг (Karen X. Cheng) длился недели и включал:

1.  Мозговые штурмы с редакцией;
2.  Сотни итераций с подбором промптов (подсказок);
3.  Модификацию отдельных частей изображения через функции DALL-E [13:39].

Янник Килчер иронизирует над простотой «создания» обложки, показывая, как он может скопировать картинку в графический редактор и выкрутить сатурацию за 10 секунд [15:10]. По его мнению, нейросети не заменяют художника, а становятся инструментом совместного творчества, заменяя скорее рутинные операции в Photoshop, чем само творческое видение [14:56].

## 🛠 Инструментарий для будущего «промпт-инженера»
[[JUMP:15:47]]

С ростом популярности текстовых моделей формируется новая дисциплина — промпт-инжиниринг. Килчер рекомендует несколько ресурсов для тех, кто хочет освоить это искусство:

*   **The DALL-E Prompt Book:** Бесплатное 82-страничное руководство от Гая Парсонса (@guyp), в котором собраны техники взаимодействия с моделью, советы по постобработке и анимации [16:43].
*   **Midjourney:** Сервис перешел в стадию открытой беты [17:10]. Он работает через Discord и платен (система кредитов), но, по словам Янника, выдает эстетически превосходные результаты [17:24].
*   **Craiyon (бывший DALL-E Mini):** Проект сменил название из-за претензий OpenAI по поводу товарного знака [18:03]. Сейчас он использует более мощную модель DALL-E Mega и остается открытым и бесплатным для всех желающих [18:29].

## 📚 Образовательные ресурсы
[[JUMP:18:56]]

В завершение выпуска Янник Килчер рекомендует два фундаментальных материала для глубокого погружения в машинное обучение:

1.  **Учебная программа Джейкоба Хилтона:** Подборка ресурсов по трансформерам, законам масштабирования (scaling laws), обучению с подкреплением и интерпретируемости моделей [19:09].
2.  **Задачи «с ручкой и бумагой» от Михаила Гутмана:** 200-страничный PDF-файл с упражнениями по линейной алгебре, оптимизации и графическим моделям, где после каждой задачи приведены подробные решения [19:35].