Маркес Браунли протестировал генератор картинок DALL-E 2 от OpenAI

Известный техноблогер Маркес Браунли (Marques Brownlee) получил эксклюзивный доступ к нейросети DALL-E 2 от компании OpenAI и протестировал её возможности по генерации изображений на основе текстовых запросов. В ходе экспериментов он разобрался в технологических принципах работы алгоритмов CLIP и диффузии, а также оценил потенциал использования искусственного интеллекта в творческих профессиях. Статья рассказывает о том, как устроена генерация изображений нового поколения, с какими багами сталкиваются пользователи и смогут ли машины заменить реальных дизайнеров.

🧠 Как устроена магия DALL-E 2: CLIP и диффузия 0:00

Представьте себе систему, способную превратить любое текстовое описание в реалистичное изображение. Будь то астронавт верхом на лошади, плюшевые мишки в продуктовом магазине или тарелка супа, служащая порталом в другое измерение — нейросеть способна выдать около 10 различных вариаций в любом художественном стиле. Проект под названием DALL-E 2 разработан исследовательской лабораторией OpenAI, в создании которой в своё время принимал участие Илон Маск.

Один из создателей первой и второй версий проекта, исследователь Адитья Рамеш (Aditya Ramesh), пояснил ключевые технические различия между поколениями нейросети. Если первая версия DALL-E генерировала картинку последовательно, строка за строкой, двигаясь от верхнего левого угла к правому нижнему, то DALL-E 2 использует принципиально иной подход, основанный на совместной работе двух технологий:

CLIP: эта модель сопоставляет изображения с текстом, обучая компьютер понимать концепции, заложенные в визуальном ряде. Благодаря CLIP нейросеть не просто собирает мозаику из найденных в интернете картинок, а осознает, что такое «астронавт», «лошадь» и «верховая езда», а также понимает, какие изображения кажутся людям эстетически привлекательными.
Диффузия (Diffusion): поскольку CLIP сам по себе не умеет создавать высокоразрешенные детализированные изображения, в дело вступает диффузионная модель. Она обучает алгоритм на процессе «порчи» чистых картинок гауссовым шумом, после чего совершает обратный процесс — очищает случайный шум, постепенно превращая его в четкое изображение.

Маркес Браунли сравнивает этот процесс со знаменитым интернет-мемом «как нарисовать сову»: шаг первый — нарисуйте круг, шаг второй — нарисуйте остальную сову. Похожая технология генерации лиц используется на известном сайте thispersondoesnotexist.com, однако DALL-E 2 представляет собой гораздо более продвинутую и обобщенную версию этого алгоритма для любых объектов.

🎨 Эксперименты в текстовом поле: от яблок до кенгуру-пенсионеров 3:34

Интерфейс DALL-E 2 представляет собой простую пустую строку поиска, куда пользователь может ввести абсолютно любой запрос. На момент создания видео инструмент не был доступен широкой публике, и OpenAI тщательно оберегала его от массового использования, предоставив доступ лишь ограниченной группе лиц. Получив «ключи» от нейросети на один день, Маркес Браунли в первую очередь попытался выяснить, как будет выглядеть долгожданный автомобиль Apple Car. Спустя 10 секунд ожидания система выдала забавные концепты, напоминающие компьютерные мыши на колесах.

Затем ведущий перешел к более простым тестам, постепенно усложняя задачи:

«Синее яблоко и миска с апельсинами»: нейросеть продемонстрировала поразительную четкость, реалистичность и работу со светом, создав изображение буквально из ничего.
«Пожилой кенгуру»: результат оказался настолько детализированным, что выглядел как настоящая фотография старого кенгуру, хотя такого снимка никогда не существовало в реальности.
«Мудрый слон, смотрящий на луну ночью»: изображение вышло очень реалистичным, хотя при ближайшем рассмотрении форма луны показалась ведущему слегка искаженной.

🥸 Детализация, абсурдные запросы и встроенные фильтры безопасности 5:50

Одним из самых забавных тестов стал запрос «плюшевый мишка делает операцию на виноградине в стиле мультфильмов 1990-х годов». Нейросеть точно передала эмоции, текстуры и стилистику анимации, однако вместо хирургического скальпеля вложила в лапы медведя ножницы. Позже выяснилось, что это связано с жесткой политикой безопасности OpenAI: библиотека DALL-E 2 очищена от материалов для взрослых, изображений насилия и незаконных действий. По этой причине алгоритм подобрал наиболее безопасную ассоциацию для хирургического вмешательства.

Другие безумные сценарии также показали высокий уровень «фантазии» алгоритма:

Пес Мак на съемочной площадке: запрос включал конкретную породу студийной собаки (бордер-терьер), управляющей камерой. Маркес отметил, что при зумировании фотореализм начинает распадаться, но общая детализация и то, как собака держит камеру, выглядят потрясающе.
Женщина-робот, охраняющая стену компьютеров: слово «охраняющая» заставило ИИ самостоятельно выбрать защитные позы для персонажа, а сами стойки с компьютерами выглядели убедительно, пока пользователь не начинает пиксель-пипинг (разглядывание пикселей).
Тигр, открывающий затерянный город Атлантиду: ИИ выбрал живописный художественный стиль из-за отсутствия реалистичных референсов Атлантиды. При этом нейросеть самостоятельно добавила в кадр деревья, птиц и луну, правильно рассчитав тени и отражения света.
Козел с iPad в стиле Моны Лизы: сложнейший гибридный запрос привел к комичному результату — почти у всех нарисованных козлов появились человеческие руки, держащие планшеты, но сама стилистика живописи Леонардо да Винчи была выдержана идеально.
Циклоп на тракторе в наушниках AirPods в стиле Симпсонов: ИИ успешно справился с задачей, хотя по какой-то причине нарисовал массивные накладные наушники вместо компактных вкладышей Apple.

⚠️ Ограничения технологии и забавные баги 10:48

Несмотря на выдающиеся результаты, DALL-E 2 имеет ряд как умышленных ограничений, так и технических несовершенств. К умышленным, помимо запрета на насилие, относится невозможность генерировать изображения реальных людей по их именам. Пользователь может запросить абстрактного «человека, грабящего банк», но система заблокирует запрос «Маркес Браунли грабит банк» из соображений конфиденциальности.

Среди технических недостатков (багов) текущей версии выделяются следующие:

Проблема связывания переменных (Variable Binding): нейросеть часто путает относительное расположение объектов. Если попросить её изобразить «красный куб поверх синего куба», она может выдать синий куб на красном. Этот баг проявился и в тесте Маркеса: на одном из изображений с синим яблоком система нарисовала оранжевое яблоко в миске с синими яблоками.
Генерация текста: DALL-E 2 абсолютно не умеет писать слова. Если попросить её создать вывеску с конкретной надписью, она выдаст случайный набор непонятных символов, отдаленно напоминающих буквы. В Твиттере даже существует отдельный тред, где пользователи делятся подобными абсурдными вывесками.

🔄 Побочные суперсилы: трансформация изображений и путь к AGI 12:34

В процессе разработки диффузионного метода создатели обнаружили неожиданный и крайне полезный побочный эффект — способность трансформировать уже существующие изображения. Пропуская реальный снимок через модель несколько раз с определенным текстовым промтом, можно кардинально изменить его стиль.

Примеры трансформаций, продемонстрированные в видео:

Обычная куртка постепенно превращается в холст в стиле абстракционизма Джексона Поллока.
Фотография домашней кошки шаг за шагом трансформируется в образ мастера-самурая.
Современный iPhone подвергается «демодернизации», последовательно превращаясь во все более старые модели кнопочных и дисковых телефонов.

Маркес Браунли напоминает, что DALL-E 2 — это в первую очередь исследовательский проект, а не коммерческий продукт. Конечная цель OpenAI заключается в создании безопасного сильного искусственного интеллекта общего уровня (AGI). В отличие от узкоспециализированных систем (которые отлично ищут рак на рентгеновских снимках, управляют беспилотниками или улучшают резкость в Photoshop), общий ИИ должен уметь ориентироваться в огромном количестве жизненных ситуаций, подобно гуманоидному роботу Tesla. Способность быстро и точно распознавать объекты и связывать их с текстовыми концепциями — важнейший шаг на пути к этой цели.

💼 Заменит ли ИИ художников и дизайнеров? 13:13

Один из главных вопросов, волнующих креативное сообщество: отберет ли нейросеть работу у живых людей? Чтобы проверить это, команда Браунли провела эксперимент, столкнув DALL-E 2 в баттле с Тимом — штатным графическим дизайнером студии MKBHD. Задача дизайнера в студии во многом схожа с работой ИИ: превратить устные идеи ведущего в красивую визуальную обложку.

По мнению Маркеса Браунли, если дать человеку достаточно времени, он сделает работу качественнее, глубже и точнее. Однако нейросеть тратит на генерацию десятка вариантов всего 10 секунд. Блогер считает, что на текущем этапе DALL-E 2 является непревзойденным инструментом для мозгового штурма (брейншторминга) и быстрого нахождения концептов, создание которых вручную заняло бы часы.

В качестве доказательства Браунли признался, что превью (тумбнейл) к этому самому видео было создано на основе изображения, сгенерированного DALL-E 2 по запросу «рисующая рука робота». По прогнозу ведущего, в будущем появятся новые версии нейросети, которые смогут выдавать картинки сверхвысокого разрешения, затем перейдут к быстрой анимации, генерации видеоклипов и, возможно, созданию целых фильмов.