# Гай Парсонс: «Промпт-инжиниринг — это поиск невидимых образов»

Источник: https://www.youtube.com/watch?v=PFsbWAC4_rk
Канал: a16z (Andreessen Horowitz)
Опубликовано: 09.03.2023

---

## Искусство диалога с машиной: как промпт-инжиниринг меняет творчество
[[JUMP:0:00]]

С развитием генеративных моделей, таких как DALL-E, Midjourney и Stable Diffusion, возникла новая высококреативная роль — промпт-инженер. Подобно композитору, который пишет ноты для оркестра, промпт-инженер создает текстовые описания, «направляя» искусственный интеллект к желаемому результату. В этом эпизоде подкаста a16z автор канала беседует с Гаем Парсонсом (Guy Parsons), одним из первых исследователей в области генеративного искусства, автором «Prompt Book» для DALL-E 2. Участники обсуждают эволюцию промптинга, роль человеческого мастерства в эпоху алгоритмов и будущее профессий, связанных с ИИ.

### 🎨 Как работает «созывание» образов
[[JUMP:1:42]]

Гай Парсонс начал свой проект в эпоху первых тестов DALL-E 2, когда доступ к модели был ограничен, а пользователи остро ощущали недостаток контроля над процессом. Основная сложность заключается в том, что интерфейс ИИ — это просто текстовое поле, а результат зависит от умения пользователя описать желаемое.

*   **Принцип «существующего объекта»:** Лучший способ получить нужный результат — описывать изображение так, будто оно уже существует в реальности, например, в архиве или фотогалерее.
*   **Специфика обучения:** Поскольку модели обучаются на огромных массивах данных с alt-текстами, они часто улавливают общую атмосферу изображения, но плохо понимают детальную композицию (например, где именно должен стоять объект).
*   **Длина и детализация:** По мере накопления опыта пользователи переходят от коротких запросов, вроде «обезьяна в шляпе», к детальным описаниям на сотни слов.

По мнению Парсонса, промпт-инжиниринг — это не столько программирование, сколько обнаружение изображения, которое уже «существует» в пространстве возможностей модели.

### 🛠 Эволюция инструментов: от текста к визуальному контролю
[[JUMP:10:29]]

За последние полгода инструменты радикально изменились. Если раньше пользователи начинали «с чистого листа», то теперь появились способы задать базовую структуру.

*   **Image-to-Image:** Возможность загружать свои изображения (например, бренд-цвета или селфи) позволяет использовать их как визуальную базу для генерации новых вариаций.
*   **Специфика моделей:** Midjourney и Stable Diffusion развиваются агрессивно, предлагая встроенные механизмы композиции. При этом использование разных моделей можно сравнить с управлением разными автомобилями: у каждой свой характер отклика.
*   **Негативные запросы:** Пользователи могут ограничивать ИИ, сообщая, чего *не должно* быть на изображении, что помогает бороться с «глюками» модели (например, некорректной отрисовкой рук).

### 🚀 Будущее и «необъяснимое» в искусстве
[[JUMP:21:33]]

Собеседники сходятся во мнении, что промпт-инжиниринг будет развиваться по бимодальной модели. С одной стороны, интерфейсы будут упрощаться, превращая промптинг в базовый навык для всех, подобно Excel. С другой — всегда будут «мастера-ремесленники», готовые тратить сотни часов на поиск идеальных нюансов.

*   **Бизнес-применение:** AI-инструменты будут глубже интегрироваться в креативный процесс — от создания контента для соцсетей до 3D-печати реальных продуктов.
*   **Скрытый промптинг:** Парсонс предполагает, что востребованными станут специалисты, создающие «прослойки» между обычным пользователем и мощной моделью, добавляя «сок» (juice) в простые запросы.
*   **Творческий поиск:** Сравнение с шахматными движками показалось ведущему уместным: ИИ не только выполняет волю автора, но и открывает новые эстетические решения, которые человек не смог бы придумать самостоятельно.

Гость и ведущий согласились: несмотря на всю мощь технологий, решающим фактором остается человеческое любопытство и стремление исследовать границы возможного.