Как нейросеть DALL-E 2 от OpenAI создает изображения по тексту

Известный техноблогер Маркес Браунли (Marques Brownlee) протестировал революционную нейросеть DALL-E 2 от компании OpenAI, способную генерировать реалистичные изображения на основе текстовых описаний. В своем видео автор подробно разбирает внутренние алгоритмы технологии, демонстрирует результаты безумных текстовых запросов и размышляет о будущем генеративного искусства. Этот подробный обзор позволяет заглянуть в мир технологий, меняющих представление о дизайне и креативности.

🧠 Искусственный интеллект, создающий реальность из текста 0:00

Технологии генерации изображений вышли на принципиально новый уровень, предлагая пользователям возможность мгновенно визуализировать любую фантазию. Достаточно ввести текстовый запрос — например, «астронавт верхом на лошади» или «плюшевые мишки покупают продукты», — и система за считанные секунды создаст абсолютно новое, уникальное изображение. Более того, нейросеть предлагает до 10 различных вариаций в самых разнообразных художественных стилях.

Как отмечает Маркес Браунли, за этой технологией стоит исследовательский проект DALL-E 2, разработанный компанией OpenAI. Одной из ключевых фигур в создании алгоритма стал исследователь Адитья Рамеш, соавтор первой и второй версий DALL-E. Главная цель данного искусственного интеллекта заключается в создании оригинальных, реалистичных изображений и произведений искусства на основе текстового описания, что открывает огромные перспективы для контент-мейкеров.

🛠️ Техническая изнанка: CLIP и Диффузия 1:26

Принципиальное отличие DALL-E 2 от первой версии заключается в смене архитектурного подхода. По словам Адитьи Рамеша, DALL-E 1 генерировал картинку последовательно — сверху вниз, строка за строкой. В основе же DALL-E 2 лежат две ключевые технологии: CLIP и диффузия (Diffusion).

Технология CLIP отвечает за сопоставление изображений с текстом. С её помощью компьютер учится понимать не просто пиксели, а концепты и смысловые связи. Когда пользователь просит изобразить астронавта на лошади, система не просто собирает мозаику из существующих в интернете картинок. Она осознает, что такое «астронавт», что означает «скакать» и как выглядит «лошадь», а также учитывает, какие изображения эстетически приятны для человека.

Однако сама по себе CLIP не способна выдавать высокоразрешенные и детализированные изображения — она формирует лишь общую суть картины. Здесь в дело вступает модель диффузии. Процесс её обучения выглядит следующим образом:

Компьютер учат намеренно искажать чистое изображение, добавляя гауссов шум.
Затем модель обучается обратному процессу — «очищению» картинки от шума и восстановлению деталей.
В результате из хаотичного набора точек нейросеть пошагово воссоздает четкое и детализированное финальное изображение.

Маркес Браунли сравнивает DALL-E 2 с развитием известного ресурса thispersondoesnotexist.com, который создавал реалистичные лица несуществующих людей. Однако DALL-E 2 представляет собой гораздо более продвинутую и генерализованную версию этой технологии, способную работать с абсолютно любыми объектами.

🎨 Практические тесты: от яблок до циклопов на тракторе 3:34

На момент создания видео инструмент не был доступен широкой публике: OpenAI держала проект за закрытыми дверями, предоставляя доступ лишь ограниченной группе лиц. Маркесу Браунли предоставили возможность протестировать систему в течение одного дня. Автор начал с шуточного запроса о дизайне долгожданного автомобиля «Apple Car», получив забавную интерпретацию машины в форме яблока.

Дальнейшие эксперименты блогера включали в себя запросы разной сложности:

«Синее яблоко и миска с апельсинами» — система продемонстрировала поразительную четкость, фотореализм и работу со светом.
«Пожилой кенгуру» — изображение получилось настолько правдоподобным, что напоминало реальное фото.
«Мудрый слон, смотрящий на луну ночью» — атмосфера и детали переданы точно, хотя сама луна при близком рассмотрении выглядела слегка искаженной.
«Плюшевый мишка проводит операцию на виноградине в стиле мультфильмов 1990-х» — нейросеть уловила стиль и эмоции, хотя вместо хирургических инструментов вложила в лапы мишке ножницы.

Маркес Браунли отмечает удивительную способность DALL-E 2 проявлять «воображение». Например, при запросе «тигр, открывающий затерянный город Атлантиду», искусственный интеллект самостоятельно добавил на фон деревья, птиц и луну, идеально выстроив тени и отражения света. В более сложных и абсурдных запросах, вроде «картина в стиле Моны Лизы с козлом, делающим селфи на iPad», нейросеть успешно справилась с задачей, сохранив заданную стилистику.

🔒 Безопасность и встроенные ограничения 9:44

Создание столь мощного инструмента сопряжено с серьезными рисками, поэтому разработчики внедрили жесткие фильтры. На данный момент DALL-E 2 является исследовательским проектом, а не коммерческим продуктом. Стратегическая цель OpenAI — создание безопасного общего искусственного интеллекта (AGI). В отличие от узкоспециализированных систем (например, для диагностики рака по рентгеновским снимкам или управления беспилотными авто), общий ИИ должен ориентироваться в огромных массивах разнородных данных.

Для предотвращения злоупотреблений в DALL-E 2 встроены следующие ограничения:

Полный запрет на генерацию контента для взрослых, нелегальной деятельности и сцен насилия. Именно этим ограничением объясняется замена скальпеля на ножницы в сцене с плюшевым мишкой-хирургом.
Запрет на генерацию изображений реальных публичных людей. Пользователь может запросить абстрактного «человека, грабящего банк», но система заблокирует запрос «Маркес Браунли грабит банк» во избежание создания опасных фейков.

🌀 Парадоксы и скрытые возможности диффузии 11:29

Несмотря на выдающиеся результаты, Маркес Браунли указывает на ряд архитектурных уязвимостей и «багов» текущей версии нейросети. Одним из главных недостатков является проблема связывания переменных (variable binding), то есть неспособность точно обрабатывать относительное расположение объектов. Например, при запросе «красный куб на синем кубе» ИИ может выдать их в обратном порядке. Этот сбой проявился и в тесте автора: на картинке с «синим яблоком и миской апельсинов» нейросеть нарисовала оранжевый апельсин внутри миски с синими яблоками.

Кроме того, DALL-E 2 совершенно не умеет работать с написанием текста. Если попросить её сгенерировать вывеску с конкретным словом, на выходе получится бессмысленный набор букв.

С другой стороны, метод диффузии открыл неожиданную и крайне полезную побочную функцию — трансформацию существующих изображений. Пропуская готовый снимок через модель повторно с определенным текстовым запросом, можно плавно изменять его стиль. Маркес Браунли продемонстрировал, как обычная куртка превращается в полотно в стиле Джексона Поллока, домашний кот — в мастера самурая, а современный iPhone поэтапно «демодернизируется», превращаясь в кнопочные телефоны прошлых поколений.

💼 Заменит ли нейросеть человека? 13:13

Один из главных вопросов, волнующих креативную индустрию: отберет ли искусственный интеллект работу у художников и дизайнеров? Чтобы проверить это, команда Маркеса Браунли провела эксперимент, столкнув DALL-E 2 в битве с Тимом — штатным графическим дизайнером студии MKBHD. Задача обоих заключалась в том, чтобы превратить устные идеи ведущего в готовое изображение.

Результаты эксперимента привели автора к следующим выводам:

Человеческий фактор побеждает на длинной дистанции. Если дать дизайнеру Тиму достаточно времени, его финальная работа окажется качественнее, точнее и глубже.
ИИ выигрывает в скорости. За 10 секунд DALL-E 2 выдает массу разнообразных концептов, на создание которых у человека ушли бы часы.
Отличный инструмент для мозгового штурма. Изображения нейросети могут быть размытыми по краям или содержать артефакты при приближении, но они служат прекрасной стартовой точкой для поиска идей.

В качестве подтверждения практической пользы технологии Маркес Браунли признался, что обложка (превью) к данному видеоролику изначально была сгенерирована в DALL-E 2 по запросу «рисующая рука робота», а затем доработана дизайнером. По мнению ведущего, в будущем нас ждут новые версии DALL-E, способные создавать графику еще более высокого разрешения, быструю анимацию, видеоклипы и, возможно, полноценные фильмы на пути к созданию общего ИИ.