Эпоха текстовых генераторов: детальный разбор Imagen, DALL-E 2 и CogView 2

Лето 2022 года ознаменовалось беспрецедентным прорывом в области генеративного искусства. Янник Килчер (Yannic Kilcher) в свежем выпуске ML News проводит детальный обзор систем, которые превращают текст в высококачественные изображения, анализирует технические инновации Google и OpenAI, а также обсуждает этические вызовы, связанные с новой технологией.

🎨 Imagen: Триумф простоты и масштабирования от Google 0:24

Google Research (Торонто) представила систему Imagen — диффузионную модель, которая демонстрирует поразительную точность следования текстовым запросам . По мнению Янника Килчера, за последние несколько месяцев качество подобных моделей улучшилось настолько стремительно, что это можно назвать беспрецедентным прогрессом в области ИИ .

Архитектура Imagen примечательна своей относительной простотой по сравнению с конкурентами вроде DALL-E 2 . Процесс генерации разделен на четкие этапы:

Кодирование текста: Используется замороженный (frozen) текстовый энкодер. Он не обучается вместе с основной моделью, а берется в готовом виде после обучения на чисто текстовых данных .
Базовая генерация: Текстовое эмбеддинг подается в диффузионную модель, которая создает изображение низкого разрешения (64x64 пикселя) .
Суперразрешение: Изображение проходит через два этапа повышения качества — сначала до 256x256, затем до 1024x1024 пикселей .

Янник Килчер подчеркивает важный вывод исследователей Google: увеличение размера предобученного текстового энкодера дает гораздо больший прирост качества и точности изображения, чем увеличение самой диффузионной модели . Это означает, что для ИИ-художника понимание нюансов языка важнее, чем сам процесс рисования.

Технические нюансы: Динамическое пороговое значение и «хак» с весами

В Imagen реализована техника динамического порогового значения (dynamic thresholding) . В процессе диффузии (превращения шума в картинку) значения пикселей могут выходить за допустимые рамки. Вместо того чтобы просто обрезать их, Imagen динамически сжимает диапазон значений на каждом шаге . Это позволяет использовать очень большие веса «классификаторного руководства» (classifier-free guidance) без потери фотореализма .

Сам метод классификаторного руководства Янник Килчер называет «хитрым хаком» . Модель обучают генерировать изображения как с текстом, так и без него. Во время работы ИИ вычисляет разницу между этими двумя вариантами и искусственно усиливает её, заставляя систему максимально концентрироваться на смысле текстового запроса .

🌐 Unified-IO: Одна модель для всех визуальных задач 7:06

Институт ИИ Аллена (Allen Institute for AI) представил Unified-IO — модель с беспрецедентным охватом задач . В отличие от узкоспециализированных систем, Unified-IO способна выполнять:

Генерацию изображений по тексту;
Сегментацию (выделение объектов на фото);
Оценку позы человека;
Аннотирование регионов изображения .

Секрет универсальности заключается в едином словаре токенов . Все входные данные — будь то пиксели, координаты рамок (bounding boxes) или текст — переводятся на один «язык». Модель работает как классический трансформер (в стиле T5), предсказывая последовательность токенов, которые затем декодируются обратно в нужный формат: картинку или текст .

🐉 CogView 2: Быстрая генерация на двух языках 9:43

Исследователи из Университета Цинхуа представили CogView 2. Эта модель работает с английским и китайским языками и значительно превосходит первую версию по скорости и качеству .

Основные архитектурные решения CogView 2:

Иерархические трансформеры: Вместо полностью авторегрессионной генерации (по одному пикселю за раз) используются частично двунаправленные модели .
Локальное внимание: Модель обучается заполнять локальные части изображения, учитывая контекст остальных токенов. Это позволяет генерировать разные фрагменты картинки параллельно, что колоссально ускоряет работу .

🚫 Этический барьер: Google запрещает Deepfakes в Colab 11:03

Сервис Google Colab обновил правила пользования, запретив создание дипфейков (deepfakes) на своих мощностях . Хотя Google имеет полное право устанавливать правила на своей платформе, Янник Килчер видит в этом определенную «серую зону» .

Автор задается вопросом: как именно Google будет определять нарушение? Существует множество безобидных исследовательских проектов, которые технически могут попасть под размытое определение дипфейка. По мнению Килчера, подобные запреты, основанные на внутреннем усмотрении корпорации, всегда несут риск произвольного применения . Тем не менее, это решение должно отсечь массового пользователя, который просто запускает готовые скрипты, не понимая принципов работы кода .

📸 Искусственный интеллект на обложке Cosmopolitan 13:01

Журнал Cosmopolitan выпустил первый в мире номер с обложкой, созданной DALL-E 2 . Заголовки гласили, что на создание изображения ушло всего 20 секунд, однако Янник Килчер называет это утверждение кликбейтом .

Хотя сама генерация в облаке OpenAI действительно занимает секунды, реальный процесс работы художницы Карен Икс Ченг (Karen X. Cheng) длился недели и включал:

Мозговые штурмы с редакцией;
Сотни итераций с подбором промптов (подсказок);
Модификацию отдельных частей изображения через функции DALL-E .

Янник Килчер иронизирует над простотой «создания» обложки, показывая, как он может скопировать картинку в графический редактор и выкрутить сатурацию за 10 секунд . По его мнению, нейросети не заменяют художника, а становятся инструментом совместного творчества, заменяя скорее рутинные операции в Photoshop, чем само творческое видение .

🛠 Инструментарий для будущего «промпт-инженера» 15:47

С ростом популярности текстовых моделей формируется новая дисциплина — промпт-инжиниринг. Килчер рекомендует несколько ресурсов для тех, кто хочет освоить это искусство:

The DALL-E Prompt Book: Бесплатное 82-страничное руководство от Гая Парсонса (@guyp), в котором собраны техники взаимодействия с моделью, советы по постобработке и анимации .
Midjourney: Сервис перешел в стадию открытой беты . Он работает через Discord и платен (система кредитов), но, по словам Янника, выдает эстетически превосходные результаты .
Craiyon (бывший DALL-E Mini): Проект сменил название из-за претензий OpenAI по поводу товарного знака . Сейчас он использует более мощную модель DALL-E Mega и остается открытым и бесплатным для всех желающих .

📚 Образовательные ресурсы 18:56

В завершение выпуска Янник Килчер рекомендует два фундаментальных материала для глубокого погружения в машинное обучение:

Учебная программа Джейкоба Хилтона: Подборка ресурсов по трансформерам, законам масштабирования (scaling laws), обучению с подкреплением и интерпретируемости моделей .
Задачи «с ручкой и бумагой» от Михаила Гутмана: 200-страничный PDF-файл с упражнениями по линейной алгебре, оптимизации и графическим моделям, где после каждой задачи приведены подробные решения .