Маркес Браунли протестировал генератор картинок DALL-E 2 от OpenAI

Marques Brownlee 2,7 млн 15 мин 6 мин 16.05.2022
Главное

Известный техноблогер Маркес Браунли (Marques Brownlee) получил эксклюзивный доступ к нейросети DALL-E 2 от компании OpenAI и протестировал её возможности по генерации изображений на основе текстовых запросов. В ходе экспериментов он разобрался в технологических принципах работы алгоритмов CLIP и диффузии, а также оценил потенциал использования искусственного интеллекта в творческих профессиях. Статья рассказывает о том, как устроена генерация изображений нового поколения, с какими багами сталкиваются пользователи и смогут ли машины заменить реальных дизайнеров.

🧠 Как устроена магия DALL-E 2: CLIP и диффузия 0:00

Представьте себе систему, способную превратить любое текстовое описание в реалистичное изображение. Будь то астронавт верхом на лошади, плюшевые мишки в продуктовом магазине или тарелка супа, служащая порталом в другое измерение — нейросеть способна выдать около 10 различных вариаций в любом художественном стиле. Проект под названием DALL-E 2 разработан исследовательской лабораторией OpenAI, в создании которой в своё время принимал участие Илон Маск.

Один из создателей первой и второй версий проекта, исследователь Адитья Рамеш (Aditya Ramesh), пояснил ключевые технические различия между поколениями нейросети. Если первая версия DALL-E генерировала картинку последовательно, строка за строкой, двигаясь от верхнего левого угла к правому нижнему, то DALL-E 2 использует принципиально иной подход, основанный на совместной работе двух технологий:

Маркес Браунли сравнивает этот процесс со знаменитым интернет-мемом «как нарисовать сову»: шаг первый — нарисуйте круг, шаг второй — нарисуйте остальную сову. Похожая технология генерации лиц используется на известном сайте thispersondoesnotexist.com, однако DALL-E 2 представляет собой гораздо более продвинутую и обобщенную версию этого алгоритма для любых объектов.

🎨 Эксперименты в текстовом поле: от яблок до кенгуру-пенсионеров 3:34

Интерфейс DALL-E 2 представляет собой простую пустую строку поиска, куда пользователь может ввести абсолютно любой запрос. На момент создания видео инструмент не был доступен широкой публике, и OpenAI тщательно оберегала его от массового использования, предоставив доступ лишь ограниченной группе лиц. Получив «ключи» от нейросети на один день, Маркес Браунли в первую очередь попытался выяснить, как будет выглядеть долгожданный автомобиль Apple Car. Спустя 10 секунд ожидания система выдала забавные концепты, напоминающие компьютерные мыши на колесах.

Затем ведущий перешел к более простым тестам, постепенно усложняя задачи:

🥸 Детализация, абсурдные запросы и встроенные фильтры безопасности 5:50

Одним из самых забавных тестов стал запрос «плюшевый мишка делает операцию на виноградине в стиле мультфильмов 1990-х годов». Нейросеть точно передала эмоции, текстуры и стилистику анимации, однако вместо хирургического скальпеля вложила в лапы медведя ножницы. Позже выяснилось, что это связано с жесткой политикой безопасности OpenAI: библиотека DALL-E 2 очищена от материалов для взрослых, изображений насилия и незаконных действий. По этой причине алгоритм подобрал наиболее безопасную ассоциацию для хирургического вмешательства.

Другие безумные сценарии также показали высокий уровень «фантазии» алгоритма:

⚠️ Ограничения технологии и забавные баги 10:48

Несмотря на выдающиеся результаты, DALL-E 2 имеет ряд как умышленных ограничений, так и технических несовершенств. К умышленным, помимо запрета на насилие, относится невозможность генерировать изображения реальных людей по их именам. Пользователь может запросить абстрактного «человека, грабящего банк», но система заблокирует запрос «Маркес Браунли грабит банк» из соображений конфиденциальности.

Среди технических недостатков (багов) текущей версии выделяются следующие:

🔄 Побочные суперсилы: трансформация изображений и путь к AGI 12:34

В процессе разработки диффузионного метода создатели обнаружили неожиданный и крайне полезный побочный эффект — способность трансформировать уже существующие изображения. Пропуская реальный снимок через модель несколько раз с определенным текстовым промтом, можно кардинально изменить его стиль.

Примеры трансформаций, продемонстрированные в видео:

Маркес Браунли напоминает, что DALL-E 2 — это в первую очередь исследовательский проект, а не коммерческий продукт. Конечная цель OpenAI заключается в создании безопасного сильного искусственного интеллекта общего уровня (AGI). В отличие от узкоспециализированных систем (которые отлично ищут рак на рентгеновских снимках, управляют беспилотниками или улучшают резкость в Photoshop), общий ИИ должен уметь ориентироваться в огромном количестве жизненных ситуаций, подобно гуманоидному роботу Tesla. Способность быстро и точно распознавать объекты и связывать их с текстовыми концепциями — важнейший шаг на пути к этой цели.

💼 Заменит ли ИИ художников и дизайнеров? 13:13

Один из главных вопросов, волнующих креативное сообщество: отберет ли нейросеть работу у живых людей? Чтобы проверить это, команда Браунли провела эксперимент, столкнув DALL-E 2 в баттле с Тимом — штатным графическим дизайнером студии MKBHD. Задача дизайнера в студии во многом схожа с работой ИИ: превратить устные идеи ведущего в красивую визуальную обложку.

По мнению Маркеса Браунли, если дать человеку достаточно времени, он сделает работу качественнее, глубже и точнее. Однако нейросеть тратит на генерацию десятка вариантов всего 10 секунд. Блогер считает, что на текущем этапе DALL-E 2 является непревзойденным инструментом для мозгового штурма (брейншторминга) и быстрого нахождения концептов, создание которых вручную заняло бы часы.

В качестве доказательства Браунли признался, что превью (тумбнейл) к этому самому видео было создано на основе изображения, сгенерированного DALL-E 2 по запросу «рисующая рука робота». По прогнозу ведущего, в будущем появятся новые версии нейросети, которые смогут выдавать картинки сверхвысокого разрешения, затем перейдут к быстрой анимации, генерации видеоклипов и, возможно, созданию целых фильмов.

💬 Цитаты

«Похоже, нет ничего, чего бы эта нейросеть не могла сделать.»

Маркес Браунли 09:30

«Этот инструмент в его нынешнем виде просто потрясающе подходит для мозгового штурма.»

Маркес Браунли 13:52
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
CLIP
Нейросетевая модель OpenAI, сопоставляющая текстовые описания с визуальными образами.
Диффузия (Diffusion)
Метод генерации изображений путем постепенного очищения случайного гауссова шума.
AGI (Сильный ИИ)
Гипотетический искусственный интеллект, способный выполнять любую интеллектуальную задачу на уровне человека.
Связывание переменных (Variable Binding)
Техническая проблема ИИ, при которой алгоритм путает взаимосвязи и пространственное положение объектов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI DALL-E 2 Маркес Браунли диффузионные модели