Гай Парсонс: «Промпт-инжиниринг — это поиск невидимых образов»

Искусство диалога с машиной: как промпт-инжиниринг меняет творчество 0:00

С развитием генеративных моделей, таких как DALL-E, Midjourney и Stable Diffusion, возникла новая высококреативная роль — промпт-инженер. Подобно композитору, который пишет ноты для оркестра, промпт-инженер создает текстовые описания, «направляя» искусственный интеллект к желаемому результату. В этом эпизоде подкаста a16z автор канала беседует с Гаем Парсонсом (Guy Parsons), одним из первых исследователей в области генеративного искусства, автором «Prompt Book» для DALL-E 2. Участники обсуждают эволюцию промптинга, роль человеческого мастерства в эпоху алгоритмов и будущее профессий, связанных с ИИ.

🎨 Как работает «созывание» образов 1:42

Гай Парсонс начал свой проект в эпоху первых тестов DALL-E 2, когда доступ к модели был ограничен, а пользователи остро ощущали недостаток контроля над процессом. Основная сложность заключается в том, что интерфейс ИИ — это просто текстовое поле, а результат зависит от умения пользователя описать желаемое.

Принцип «существующего объекта»: Лучший способ получить нужный результат — описывать изображение так, будто оно уже существует в реальности, например, в архиве или фотогалерее.
Специфика обучения: Поскольку модели обучаются на огромных массивах данных с alt-текстами, они часто улавливают общую атмосферу изображения, но плохо понимают детальную композицию (например, где именно должен стоять объект).
Длина и детализация: По мере накопления опыта пользователи переходят от коротких запросов, вроде «обезьяна в шляпе», к детальным описаниям на сотни слов.

По мнению Парсонса, промпт-инжиниринг — это не столько программирование, сколько обнаружение изображения, которое уже «существует» в пространстве возможностей модели.

🛠 Эволюция инструментов: от текста к визуальному контролю 10:29

За последние полгода инструменты радикально изменились. Если раньше пользователи начинали «с чистого листа», то теперь появились способы задать базовую структуру.

Image-to-Image: Возможность загружать свои изображения (например, бренд-цвета или селфи) позволяет использовать их как визуальную базу для генерации новых вариаций.
Специфика моделей: Midjourney и Stable Diffusion развиваются агрессивно, предлагая встроенные механизмы композиции. При этом использование разных моделей можно сравнить с управлением разными автомобилями: у каждой свой характер отклика.
Негативные запросы: Пользователи могут ограничивать ИИ, сообщая, чего не должно быть на изображении, что помогает бороться с «глюками» модели (например, некорректной отрисовкой рук).

🚀 Будущее и «необъяснимое» в искусстве 21:33

Собеседники сходятся во мнении, что промпт-инжиниринг будет развиваться по бимодальной модели. С одной стороны, интерфейсы будут упрощаться, превращая промптинг в базовый навык для всех, подобно Excel. С другой — всегда будут «мастера-ремесленники», готовые тратить сотни часов на поиск идеальных нюансов.

Бизнес-применение: AI-инструменты будут глубже интегрироваться в креативный процесс — от создания контента для соцсетей до 3D-печати реальных продуктов.
Скрытый промптинг: Парсонс предполагает, что востребованными станут специалисты, создающие «прослойки» между обычным пользователем и мощной моделью, добавляя «сок» (juice) в простые запросы.
Творческий поиск: Сравнение с шахматными движками показалось ведущему уместным: ИИ не только выполняет волю автора, но и открывает новые эстетические решения, которые человек не смог бы придумать самостоятельно.

Гость и ведущий согласились: несмотря на всю мощь технологий, решающим фактором остается человеческое любопытство и стремление исследовать границы возможного.