В области искусственного интеллекта генерация изображений по текстовому описанию развивается стремительными темпами. В своем новом видео известный ИТ-исследователь Янник Килчер (Yannic Kilcher) подробно разбирает научную статью от Google Research, посвященную новой модели под названием Parti. Автор объясняет, как разработчикам удалось добиться беспрецедентного понимания сложных текстовых запросов за счет простого масштабирования авторегрессионных моделей, и рассуждает о будущем цифрового искусства.
🎨 Эволюция текстовых запросов: от десяти классов к «мини-эссе» 0:00
Янник Килчер начинает разбор с демонстрации возможностей современных генеративных систем. В качестве примера он приводит детальное описание картины Винсента Ван Гога «Звёздная ночь», состоящее из 67 слов. Модель Parti способна с высокой точностью воссоздать картину по такому подробному запросу, учитывая мельчайшие детали, такие как светящийся полумесяц, взрывающиеся звезды и изгибающиеся ветви кипариса.
По словам ведущего, индустрия совершила колоссальный скачок: если раньше условные генеративно-состязательные сети (GAN) могли создавать изображения лишь для ограниченного числа классов (например, десяти), то сегодня нейросети способны обрабатывать целые сочинения и выдавать точный визуальный результат. Модель Parti была разработана командой Google Research как параллельный проект к другой известной диффузионной системе Imagen.
🤖 Что такое Parti: авторегрессия против диффузии 1:47
Полное название проекта звучит как "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation". Главное концептуальное отличие Parti от таких моделей, как Imagen или DALL-E 2, заключается в отказе от диффузионного подхода в пользу авторегрессионного. На конкретных примерах Килчер показывает удивительную способность модели работать с текстом внутри изображений. Например, на картинке с лягушкой, читающей газету, нейросеть четко и без ошибок написала вымышленное название издания «Toe Day».
Традиционно текстовые генераторы изображений плохо справляются со спеллингом, однако Parti демонстрирует качественный прорыв в этой области. Другой пример — портрет египетского бога Анубиса в авиаторских очках, белой футболке и кожаной куртке на фоне Лос-Анджелеса. Для генерации подобного кадра ИИ должен обладать огромным пластом знаний: от понимания стиля dslr-фотографии до внешнего вида Анубиса и панорамы города, а также умения гармонично скомпоновать элементы, которые никогда не встречались вместе в реальности.
⚙️ Архитектурный прагматизм: сила в чистом масштабе 6:05
Янник Килчер с иронией отмечает, что за великолепными результатами модели не стоит какая-то принципиально новая гениальная архитектурная идея. Секрет успеха кроется в подходе «взять базовые компоненты, сделать их огромными и обучать очень долго на гигантском объеме данных». Архитектура Parti полностью построена на последовательности трансформеров.
Процесс работы модели делится на несколько ключевых этапов:
- Токенизация изображения: Для перевода картинки в понятный авторегрессионной модели вид используется кодировщик VQ-GAN, работающий на базе Vision Transformer. Картинка разбивается на патчи и сжимается в латентное пространство.
- Квантование и словарь: Как поясняет Килчер, латентные представления квантуются и соотносятся с фиксированным словарем, который в данном случае составляет около 8 000 токенов. Это позволяет модели работать с визуальными элементами точно так же, как языковые модели работают со словами.
- Текстовый энкодер и декодер: Пользовательский текстовый запрос кодируется текстовым трансформером. Затем декодер генерирует токены изображения один за другим, используя механизм перекрестного внимания (cross-attention) к тексту.
- Апсемплинг (Super-Resolution): Базовая модель генерирует картинку с разрешением 256x256 пикселей, после чего специальный супер-разрешающий апсемплер увеличивает её в 4 раза — до 1024x1024. При этом апсемплер не использует текстовый запрос, а работает только с исходным изображением.
📈 Линейка моделей и магия масштабирования 15:31
Исследователи из Google создали целое семейство моделей Parti разного объема, чтобы изучить законы масштабирования (scaling laws):
- 350 млн параметров: Младшая модель, имеющая по 12 слоев в энкодере и декодере.
- 750 млн параметров: Промежуточная версия для оценки динамики улучшения качества.
- 3 млрд параметров: Модель среднего уровня, которая неплохо справляется с композицией, но все еще делает ошибки в тексте.
- 20 млрд параметров: Самый крупный вариант, использующий разреженное внимание (sparse conv attention) и сложные методы параллелизма.
Килчер обращает внимание на любопытную деталь в графиках потерь (loss curves): 20-миллиардная модель обучается медленнее и на начальном этапе уступает 3-миллиардной, и лишь затем обгоняет ее. По мнению ведущего, это свидетельствует о том, что оптимальные рецепты обучения для моделей такого экстремального масштаба еще до конца не найдены.
Тем не менее, именно на версии в 20B параметров происходит качественный скачок: орфографические ошибки в словах (например, на вывесках вроде «Welcome Friends») практически полностью исчезают, уступая место идеальному спеллингу. Подобный масштаб требует колоссальных мощностей и параллельных вычислений на чипах TPU v4, поэтому запустить такую модель в домашних условиях, как подчеркивает Килчер, обычному пользователю невозможно.
📊 Данные и новый бенчмарк: проблема «фантазийных» изображений 16:23
В процессе обучения разработчики использовали три основных набора данных, включая классический MS COCO, содержащий простые высокоуровневые описания сцен (например, «миска брокколи и яблок»), и Localized Narratives — датасет с длинными, детальными лингвистическими описаниями. По словам Килчера, индустрия дошла до уровня, когда для обучения ИИ требуются именно такие сложные, прозаичные описания.
Однако авторы статьи столкнулись с фундаментальной проблемой существующих датасетов. Поскольку они строятся по принципу описания реальных фотографий человеком, в них полностью отсутствуют нереальные, фантазийные сюжеты (например, енот в стиле кубизма или Анубис в косухе). Оценивать способность ИИ к генерации несуществующих объектов по стандартным метрикам невозможно. Для решения этой проблемы команда Google создала и выпустила собственный бенчмарк — Parti Prompts.
Этот набор данных включает в себя около 1600 текстовых запросов (без готовых изображений), распределенных по категориям и типам вызовов (challenges). Среди них:
- Перспектива: Запросы, требующие необычного ракурса объектов.
- Количество: Проверка способности нейросети считать предметы (например, «четыре кошки вокруг собаки»), поскольку ИИ традиционно испытывает трудности с подсчетом объектов.
- Абстрактные концепции: Проверка понимания сложных идей, таких как «бесконечность».
При оценке результатов человеком Parti показала феноменальную реалистичность, практически сравнявшись по баллам с реальными фотографиями, извлеченными из обучающей выборки в качестве базовой линии (retrieval baseline). К сожалению, как замечает Килчер, сама модель, её веса и точные рецепты обучения остаются закрытыми и проприетарными.
🌲 Методика «выращивания вишнёвого дерева» (Prompt Engineering) 26:26
Интересным открытием в статье стал раздел, который авторы метафорически назвали «выращиванием вишнёвого дерева» (growing a cherry tree). Несмотря на то, что представленные в публикации примеры изображений являются отобранными (cherry-picked), разработчики честно описали процесс их получения. Оказывается, невозможно просто ввести случайное длинное предложение и сразу получить идеальный результат.
Процесс создания сложного арта напоминает итеративное взаимодействие человека и машины:
- Исследование базиса: Сначала тестируются простые концепты, например, «улыбающийся ленивец» или «фургон, припаркованный на траве».
- Поэтапное усложнение: К запросу добавляются детали одежды и аксессуары (ленивец в кожаной куртке, ковбойской шляпе и килте).
- Выявление артефактов: На промежуточных этапах отслеживаются анатомические ошибки (например, лишние конечности) и вносятся корректировки.
- Финальное объединение: Разрозненные ветви запросов соединяются в одну итоговую композицию.
Янник Килчер делает философский вывод: полноценная художественная свобода в таких системах пока ограничена. Пользователь направляет модель, но и сама модель своими удачными или неудачными генерациями направляет пользователя, заставляя его адаптировать свои идеи под особенности нейросети.
⚠️ Ограничения технологии и курьёзные ошибки 29:27
Несмотря на выдающиеся успехи, Parti все еще совершает характерные для ИИ ошибки, которые детально описаны в статье. К ним относятся:
- «Растекание цвета» (Color Bleeding): Ситуация, когда цвет, присвоенный одному объекту в запросе, ошибочно переносится на другие элементы сцены.
- Ошибки локализации: Неспособность корректно расположить объекты в пространстве. Например, на запрос «Великая пирамида Гизы перед горой Эверест» модель просто смешала их текстуры, наложив пирамиду поверх заснеженной горы.
- Сложные физические взаимодействия: Трудности с инверсией ролей персонажей. Наглядным примером стал запрос «лошадь, едущая верхом на космонавте». Чтобы заставить модель усадить лошадь на человека, инженерам пришлось вручную подбирать формулировки («лошадь сидит на космонавте»), так как слово «riding» автоматически заставляло ИИ помещать человека наверх.
Тем не менее, Килчер подчеркивает, что критика подобных багов — это «жалобы на очень высоком уровне». По мнению автора, если бы несколько лет назад кому-то сказали, что нейросети будут ошибаться лишь в количестве яблок (выдавая восемь вместо десяти) или путать ракурсы сложных фантазийных сцен, никто бы в это не поверил. Прогресс движется ошеломляюще быстро.
🔮 Будущее без фотошопа и стоковых фото 33:13
В завершение обзора Янник Килчер выражает искреннее восхищение технологией и делится своим видением будущего. По его мнению, человечество движется к эпохе, когда для создания презентации или иллюстрации больше не придется искать подходящие стоковые фотографии в интернете или обладать сложными навыками работы в Photoshop. Достаточно будет просто сформулировать мысль текстом, стереть ненужный участок на картинке и написать, чем его заменить.
Хотя Килчер выражает сожаление по поводу закрытости модели от Google, он признает право коммерческих компаний зарабатывать на своих инновациях. В конечном счете, Parti доказывает, что последовательное масштабирование трансформеров способно стирать барьеры между человеческим воображением и готовым визуальным контентом.