Эволюция ИИ-арта: от безумия Deep Dream до умной диффузии

В современном мире генеративного искусства изменения происходят буквально каждый день, подрывая классические представления о творчестве и технологиях. Хост Янник Килчер и аспирант Корнеллского университета Джек Моррис обсуждают эволюцию нейросетевого искусства от первых психоделических экспериментов с визуализацией признаков до революционных диффузионных систем. В центре их внимания — то, как объединение текста и графики открыло создателям контента беспрецедентный уровень контроля над алгоритмами и почему это может навсегда изменить профессию цифрового художника.

🎨 От психоделики к фильтрам: Ранние этапы ИИ-искусства 5:08

История современного генеративного искусства на базе глубокого обучения началась с алгоритмов, которые изначально создавались не для творчества, а для интерпретации работы нейросетей. Первым громким феноменом стал проект Deep Dream. Этот метод базировался на поиске такого входного изображения, которое максимизирует активацию определенных внутренних слоев сети.

В подавляющем большинстве ранних экспериментов алгоритм максимизировал классы, связанные с собаками, поскольку модель обучалась на датасете ImageNet, где эти животные представлены в избытке. С технической точки зрения Deep Dream совершил переворот: вместо привычного изменения параметров модели ради минимизации ошибки исследователи меняли сами пиксели входного изображения по градиенту, чтобы усилить распознаваемые сетью паттерны. По оценке Джека Морриса, полученные изображения прочно заняли нишу в сфере психоделического и трипового цифрового искусства.

Следующим важным шагом стало появление сетей переноса стиля (Style Transfer). Архитектура эксплуатировала свойства сверточных нейросетей (CNN), позволяя отделять текстуру одного изображения от контента другого. Классическим примером стало наложение стиля «Звездной ночи» Ван Гога на композицию «Моны Лизы».

Технология быстро коммерциализировалась, породив волну мобильных приложений. Янник Килчер проводит аналогию между классическим переносом стиля и инструментами вроде Adobe Photoshop. По его мнению, этот метод является скорее продвинутым фильтром или средством редактирования, поскольку требует два изображения на входе, в то время как истинное генеративное искусство стремится создавать образы «из ничего» или на основе текстовых описаний. Сегодня подобные алгоритмы официально интегрированы в Photoshop в виде функции «Neural Filters».

👥 Эпоха GAN и эволюция контроля в платформе Artbreeder 10:50

Настоящий бум в академической и творческой среде произвели генеративно-состязательные сети (GAN). В определенный период они доминировали на научных конференциях сильнее, чем трансформеры сегодня. Технология позволила синтезировать свободные, но при этом пугающе реалистичные изображения, ярким примером чего стал проект «This Person Does Not Exist».

[Image of Generative Adversarial Network architecture]

Принцип работы GAN строится на состязании двух систем:

Генератор пытается создать поддельное изображение из случайного шума.
Дискриминатор оценивает, является ли предложенная картинка реальной или фальшивой.

В процессе обучения обе сети непрерывно повышают свои навыки, пока генератор не достигает уровня, способного полностью запутать дискриминатор. Модели уровня StyleGAN v2 научились выдавать лица, которые практически невозможно отличить от реальных фотографий, за исключением редких артефактов в геометрии ушей или аксессуаров.

Однако для художников чистые GAN представляли серьезную проблему — полное отсутствие предсказуемого контроля. Скрытое пространство (latent space) генератора инициализируется случайным вектором чисел с плавающей точкой, физический смысл которых человеку не ясен. Джек Моррис выделяет две стратегии, к которым прибегали авторы:

Принять хаос и использовать метод грубой силы, генерируя тысячи случайных картинок в поисках удачной.
Использовать интерактивный поиск и рекомбинацию латентных векторов.

Вторая стратегия легла в основу платформы Artbreeder, ставшей вирусной в TikTok. Вместо слепого перебора Artbreeder предлагает итеративный процесс: пользователь выбирает несколько наиболее привлекательных лиц, а система производит их «скрещивание» и бинарный поиск по скрытому пространству, постепенно приближаясь к желаемому результату. Джек Моррис отмечает, что эта концепция восходит к проекту PickBreeder Кена Стэнли, где изображения генерировались с помощью эволюционных алгоритмов и тригонометрических функций задолго до эпохи глубокого обучения.

✍️ Текст как идеальный интерфейс: Появление CLIP и Big Sleep 19:55

Несмотря на успехи Artbreeder, ручная настройка ползунков и скрещивание векторов не могли стать универсальным интерфейсом для создания любых объектов в мире. Джек Моррис утверждает, что естественный язык является оптимальным UX-решением для управления генерацией, так как позволяет описывать абсолютно любые концепты. Это привело индустрию к парадигме Text-to-Image на базе систем «актер-критик».

Ключевым катализатором революции стал выпуск модели CLIP от OpenAI. CLIP обучена определять, насколько хорошо заданный текст соответствует изображению. Художники поняли, что текст можно зафиксировать, а затем с помощью обратного распространения ошибки (backpropagation) через CLIP модифицировать пиксели входного изображения, заставляя его соответствовать текстовому описанию.

Если проводить такую оптимизацию напрямую со случайным набором пикселей, на выходе получится лишь высокочастотный шум и артефакты. Чтобы избежать этого, разработчики поставили перед CLIP генератор GAN. В такой связке GAN выступает в роли регуляризатора и ограничителя, удерживающего изображение в рамках физического реализма, пока CLIP направляет его в сторону текстового промта.

Собеседники сошлись во мнении, что ландшафт открытого ИИ-искусства сформировался благодаря специфической политике OpenAI. В начале 2021 года компания опубликовала впечатляющий блог о модели DALL-E, генерировавшей кресла в форме авокадо и чайники. Однако саму модель OpenAI оставила закрытой, традиционно сославшись на соображения безопасности. При этом код CLIP был выложен в открытый доступ.

По мнению Джека Морриса, если бы OpenAI сразу открыла DALL-E, лавинообразного развития независимого комьюнити бы не произошло. Столкнувшись с ограничениями, энтузиасты начали собирать собственные связки. Первым прорывом стал Colab-блокнот Big Sleep, созданный Райаном Мердоком на основе BigGAN и CLIP. Он породил настоящую манию в Twitter, где пользователи ежедневно делились сгенерированными шедеврами. Параллельно развивались альтернативные проекты:

RuDALL-E — российская реплика архитектуры DALL-E, обученная на русскоязычных парах данных, склонная к абстракции и забавно копирующая водяные знаки фотостока Shutterstock.
Mini DALL-E — попытка воссоздать архитектуру трансформера в меньшем масштабе.
LAION-400M — полностью открытый датасет, содержащий 400 миллионов пар «изображение-текст», собранных для обучения свободных моделей.

🌊 Диффузионные модели: Пошаговое разрушение и воссоздание 34:24

Вскоре на смену связкам с GAN пришли диффузионные модели (Diffusion Models), которые обошли генеративно-состязательные сети в качестве и реалистичности прорисовки деталей.

Принцип работы диффузии кардинально отличается от GAN:

В ходе прямого процесса к реальному изображению шаг за шагом добавляется гауссов шум, пока оно полностью не превратится в хаос.
Нейросеть обучается обратному процессу — постепенному, пошаговому удалению шума и восстановлению чистой картинки.

Метод под названием Guided Diffusion (управляемая диффузия) соединил этот механизм с текстовыми подсказками. Процесс создания арта превратился в наслоение двух итеративных алгоритмов: диффузионная сеть убирает шум, а CLIP корректирует каждый шаг, направляя траекторию восстановления к заданному тексту. Собеседники отмечают, что наблюдать за постепенным проявлением четких контуров из хаотичного облака шума чрезвычайно увлекательно. Главным минусом диффузии на тот момент оставалась колоссальная вычислительная емкость: генерация одного качественного изображения могла занимать часы, а процесс сталкивался с эффектом убывающей отдачи.

🚀 Промт-инжиниринг: «Трюк с Unreal Engine» и мировые знания 37:24

По аналогии с языковой моделью GPT-3, в сфере визуального ИИ быстро зародилось явление промт-инжиниринга и хакинга подсказок. Пользователи обнаружили, что нейросети буквально реагируют на качественные эпитеты. Если к базовому запросу добавить фразу «Unreal Engine» (игровой движок), итоговый рендер становился в разы детальнее и объемнее. Причина проста: в обучающей выборке CLIP было много высококачественной трехмерной графики, содержащей это словосочетание в описании, и модель научилась связывать фразу с определенным уровнем детализации.

Художники начали массово применять аналогичные маркеры, добавляя в конец промтов через разделители технические параметры или качественные характеристики:

Теги разрешения: «HD», «4K», «8K».
Оценочные токены: «beautiful» (красиво), «trending on artstation» (популярно на ArtStation).
Прямые указания к качеству: фраза «not blurry» (не размыто) заставляла алгоритм искусственно повышать резкость.

Потрясающим открытием для исследователей стало наличие у мультимодальных моделей обширных знаний о реальном мире. Нейросети оказались способны компилировать сложные абстрактные концепты, соединяя географические локации с операторским стилем кинорежиссеров (например, детализированное изображение города Коулун в пастельной стилистике Уэса Андерсона).

Другим ярким примером стали реалистичные изображения «печенья из кимчи». Примечательно, что модель выдавала превосходный результат не на сухой запрос «kimchi cookies», а на развернутую человеческую фразу: «Можешь представить, как здорово было бы съесть прямо сейчас вкусное печенье из ким?».

Центральной фигурой, объединившей хаотичные находки промт-инженеров и академический базис, стала независимая исследовательница Кэтрин Кроусон (известная в Twitter под ником @rivershavewings). По признанию Джека Морриса, она выступила главным нексусом всего движения: разработала новые метрики для оптимизации, собрала открытые датасеты и первой успешно соединила диффузионные модели с CLIP-руководством, упаковав решение в доступные Colab-блокноты.

🖼️ Модель GLIDE и будущее умного редактирования 43:33

Новой вехой в развитии индустрии стала модель GLIDE от OpenAI. Ее фундаментальное отличие заключалось в том, что инженеры обучили единую диффузионную сеть выполнять функции и художника, и критика одновременно, отказавшись от внешней надстройки CLIP на этапе генерации. Джек Моррис обращает внимание на уникальный прецедент: в официальном научном документе GLIDE авторы напрямую цитировали твиты независимых разработчиков из Twitter, признавая их вклад в развитие технологии.

Помимо высокой точности генерации, GLIDE открыла путь к коммерческому применению функции инпейнтинга (Image Inpainting) — локального текстового редактирования. Пользователь может закрасить зеленой маской определенную область на готовом изображении, ввести текстовый запрос и трансформировать только выделенные пиксели.

В качестве демонстрации авторы взяли классическую картину с изображением спаниеля Кинг Чарльз, выделили собаку маской и ввели промт «девочка, обнимающая корги на пьедестале». Модель бесшовно и анатомически корректно заменила одну породу на другую, сохранив общую текстуру полотна. Янник Килчер и Джек Моррис убеждены, что интеграция подобных систем в пакеты графических программ вроде Photoshop неизбежно перевернет индустрию коммерческого дизайна.

📹 Видео, NFT и коммерциализация: Конец открытого комьюнити? 46:35

Постепенно технологии генерации вышли за рамки статичных изображений. Появились инструменты вроде Disco Diffusion, позволяющие создавать непрерывный видеоряд. Алгоритм реализует это за счет построения плавных математических траекторий и интерполяции векторов в скрытом пространстве от одного текстового промта к другому.

Параллельно с технологическим скачком ландшафт ИИ-арта столкнулся с мощной коммерциализацией. Собеседники с сожалением констатируют, что былая атмосфера открытого академического обмена начала угасать. Если на старте авторы бескорыстно делились кодом в Twitter, то с ростом популярности NFT и цифровых аукционов многие разработчики начали скрывать свои наработки за платными стенами на Patreon. Кэтрин Кроусон также запустила собственную линейку токенизированного искусства.

Современный процесс создания топового цифрового ИИ-арта превратился в сложный закрытый конвейер (pipeline). Напрямую из диффузионной модели редко выходит финальный продукт; художники используют индивидуальные многоступенчатые методы постпроцессинга:

Апскейлинг разрешения с помощью специализированных GAN-сетей.
Вторичная стилизация через кастомные фильтры.
Глубокая ручная цветокоррекция и изменение сатурации в графических редакторах.

Янник Килчер напомнил о прецеденте, когда портрет Эдмонда де Белами, созданный коллективом Obvious с помощью простых алгоритмов, был продан на аукционе Christie's за огромную сумму в $432 500. Однако, по мнению Джека Морриса, сегодняшняя тотальная доступность мощных инструментов генерации парадоксальным образом может обесценить чистый ИИ-арт как рыночный товар, смещая фокус с факта использования нейросети на уникальность концепта.

🔮 Прогнозы: Кем станет художник будущего? 53:44

Рассуждая о будущем, Джек Моррис соглашается с тезисом Янника о том, что текстовые промты в их текущем виде — довольно неуклюжий инструмент с низким уровнем предсказуемости. Зачастую важные элементы описания просто исчезают из финального рендера. Из-за этого реальная работа современного цифрового автора строится по принципу Artbreeder: генерируется матрица из 4 или 64 вариантов, из них выбирается наиболее удачный, который затем масштабируется и дорабатывается. Кроусон, к примеру, активно исследует генерацию через огромные матрицы превью размером 32 на 32 пикселя.

По прогнозу Джека Морриса, в будущем профессия художника претерпит фундаментальный сдвиг: механическое создание образов (отрисовка пикселей, наложение мазков) окончательно отойдет машинам. На передний план выйдет аналитическая и селективная функция — способность концептуализировать, критически оценивать и отбирать лучшие варианты (реализация парадигмы «художник-критик»).

Это откроет двери в индустрию огромному количеству талантливых людей, которые обладают великолепным художественным вкусом и видением, но не имеют физической координации или навыков владения реальной кистью для ручного воплощения своих идей.