Гай Парсонс: «Промпт-инжиниринг похож на поиск в бесконечном Pinterest»

Развитие генеративного искусственного интеллекта породило новую творческую профессию — промпт-инженера, чья роль заключается в управлении нейросетями с помощью текстовых запросов. В новом выпуске подкаста венчурного фонда a16z ведущий обсуждает с пионером этой индустрии Гаем Парсонсом эволюцию текстовых моделей, скрытые механики работы с визуальным ИИ и будущее креативных профессий. Собеседники пытаются разобраться, станет ли промпт-инжиниринг дефицитным и высокооплачиваемым навыком или превратится в базовую грамотность вроде владения Excel.

📘 От слайд-дека до канонического учебника: история создания Prompt Book 1:42

В июле 2022 года компания OpenAI начала постепенно предоставлять доступ к своей текстовой модели для генерации изображений DALL-E 2. Как вспоминает Гай Парсонс, разработчики действовали крайне осторожно, опасаясь неправомерного использования технологии и возможной негативной реакции общества, что лишь подогревало ажиотаж среди пользователей. В тот момент такие популярные сейчас инструменты, как Stable Diffusion и Midjourney, еще не вышли на рынок широкой доступности или заметно уступали разработке OpenAI.

Главная сложность для новичков заключалась в интерфейсе: перед пользователем было лишь пустое текстовое поле без привычных кнопок и настроек из условного Photoshop. Парсонс заметил, что люди с художественным образованием или знанием истории дизайна имели огромное преимущество, тогда как у обычных пользователей «мысль замирала».

В соцсетях Twitter и Reddit начали появляться потрясающие примеры генераций, но из-за алгоритмов ленты эти ценные крупицы знаний быстро терялись. Гай стал собирать удачные термины и примеры в презентацию, которая разрослась до 80–100 слайдов. Итоговый документ он амбициозно назвал «книгой» (Prompt Book) и выложил в открытый доступ, создав первый ориентир для зарождающегося сообщества.

🧠 Промпт-инжиниринг как поиск в бесконечном Pinterest 4:21

За прошедшие полгода технологии совершили колоссальный скачок. Отвечая на вопрос ведущего о времени, необходимом для освоения навыка, Парсонс скромно отмечает, что не считает себя абсолютным мастером, хотя за последние шесть месяцев провел за экспериментами с ИИ пару сотен часов.

При этом в сообществе Midjourney есть энтузиасты, количество запросов которых исчисляется тысячами и даже сотнями тысяч. Ситуация напоминает наем разработчиков, когда в вакансиях требуют пятилетний опыт владения языком программирования, созданным всего год назад.

Размышляя о природе этого навыка, Парсонс сравнивает промпт-инжиниринг со способностью эффективно искать информацию в Google с использованием продвинутых операторов. По мнению Гая Парсонса, создание ИИ-изображений — это не столько традиционное рисование, сколько процесс обнаружения уже существующей картинки. Спикер считает, что промптер выступает в роли навигатора по бесконечному пространству «Pinterest», извлекая на свет образы, которые до этого момента не были материализованы.

📐 Секреты обучения ИИ: почему нейросети не понимают пошаговых инструкций 7:00

Главный принцип успешного промптинга, по словам Парсонса, заключается в том, чтобы описывать изображение так, будто оно уже существует в готовом виде — например, в библиотеке клипартов или на фотовыставке с соответствующей подписью под кадром. Именно на таких текстовых описаниях (alt-text) обучались современные нейросети. Например, модель DALL-E обучалась на базе, содержащей более 600 миллионов изображений с текстовыми метаданными.

Понимание этого факта объясняет, почему нейросети часто пасуют перед строгими пространственными инструкциями. В реальной жизни под архивным фото условного 1972 года никто не пишет: «Женщина слева в желтой шляпе, а женщина справа — в синей». Описание фиксирует общий сюжет и атмосферу кадра, а не пошаговый алгоритм рисования.

Поэтому, как отмечает Парсонс, ИИ плохо справляется с запросами вроде «помести этот объект сюда, а тот сделай больше и поставь сверху». При этом усложнение текста и чрезмерное увеличение длины запроса быстро приводят к эффекту убывающей отдачи.

🎰 Игровой автомат ИИ и борьба с системными багами 13:23

Работа с генеративными моделями во многом напоминает игру в слот-машину. Нейросеть генерирует изображение из случайного «облака шума». Поскольку у каждого пользователя это облако уникально, один и тот же текстовый запрос выдаст абсолютно разные результаты.

Это порождает методологические трудности: промптер не всегда может понять, создал ли он действительно гениальный запрос или ему просто повезло с генерацией шума. В итоге пользователи часто скатываются к механическому повторению нажатия кнопки в надежде на случайный успех.

Дополнительную сложность создают фундаментальные ограничения текущих версий ИИ:

Анатомические и логические ошибки: Нейросети до сих пор печально известны плохой прорисовкой рук. Модель может «не понимать» физических правил объектов — например, согнуть сосиску в хот-доге под прямым углом или пририсовать уши булочке.
Проблема кадрирования: Ранняя версия DALL-E не осознавала, что рисует строго в квадратном формате, из-за чего часто обрезала головы и ноги персонажам. Гай Парсонс использовал лайфхак: загружал изображение с тонкой белой рамкой, что заставляло ИИ «думать внутри коробки».
Прогресс алгоритмов: Новая модель Midjourney v4 сделала огромный шаг вперед. По наблюдениям Парсонса, она автоматически решает композиционные задачи — если запросить групповое селфи трех человек, модель органично «рассадит» их в кадре, заставив одного наклониться или встать позади других.

🚗 Сравнение моделей: Stable Diffusion, Midjourney и DALL-E 18:17

Многие сравнивают разницу между ключевыми ИИ-моделями с различиями между Excel и Google Sheets, где базовые принципы одинаковы, а меняются лишь горячие клавиши. Однако Парсонс предлагает другую аналогию: это скорее вождение разных автомобилей. У них разные двигатели, динамика разгона и управляемость.

Различия между моделями обусловлены их архитектурой и обучением:

Midjourney берет на себя огромную часть «тяжелой работы» по улучшению эстетики запроса, помогая пользователю получить красивую картинку даже по простому тексту.
Stable Diffusion была обучена на колоссальном массиве из 5 миллиардов изображений. Сверху была наложена кастомная тонкая настройка на выборке из 12 миллионов изображений, определяющая, что именно является «красивым» с точки зрения визуальной привлекательности.

Парсонс подчеркивает, что для достижения идеального результата профессионалы редко ограничиваются одной нейросетью. Текстовые модели дают отличный сырой материал, который затем дорабатывается с помощью функций Inpainting (дорисовка внутри кадра) и Outpainting (расширение границ), а также классических инструментов вроде Photoshop, мобильных фильтров Lightroom или FaceTune для придания финального стиля.

🔮 Будущее за рамками текстового поля 21:33

Главный вызов и одновременно главная возможность индустрии на данный момент — это выход за пределы стандартного текстового интерфейса. Парсонс отмечает вечную боль профессиональных дизайнеров: клиенты часто недовольны результатом, но не могут объяснить словами, что именно нужно изменить, требуя сделать «более как-то так». В аналогичном положении слепого поиска находятся и современные ИИ-модели.

В будущем интерфейсы взаимодействия с ИИ могут кардинально измениться:

Диалоговый интерфейс: Возможность общаться с моделью в формате непрерывного уточняющего разговора.
Мультипространственные генерации: Скорость работы ИИ позволит мгновенно показывать пользователю веер альтернативных направлений развития стиля.
Работа со стилями без слов: В искусстве существуют эстетики, для которых нет четких словесных названий (например, «современная глянцевая грязь»). Перспективным направлением Парсонс считает технологию текстовых инверсий (embeddings), когда ИИ обучают новому стилю на основе выборки из 10–20 изображений. Это позволяет «зашить» нужную эстетику в отдельную переменную. На этом рынке уже появляются специализированные стартапы, такие как Scenario (создание игровых ассетов в едином стиле) и Leonardo.

💼 Профессия или временная функция: исчезнет ли промпт-инженер? 32:25

В экспертном сообществе ведутся споры о долговечности профессии промпт-инженера. С одной стороны, создатели базовых моделей стремятся полностью ликвидировать потребность в сложных промптах, делая технологию максимально доступной для каждого. В качестве примера Парсонс приводит Midjourney v4: теперь достаточно написать простой запрос «космическая утка» (space duck), чтобы получить проработанное детализированное изображение астронавта, хотя раньше для этого требовалось вводить десятки модификаторов.

С другой стороны, Гай Парсонс уверен, что эксперты, досконально знающие возможности инструментов, никуда не исчезнут. Их позиция будет похожа на редких мастеров художественной резьбы по дереву или узких специалистов по анимации волос в киноиндустрии.

Кроме того, по мнению Парсонса, сформируется рынок «скрытого промптинга» (secret prompting). Пользователь в UX-интерфейсе приложения будет писать простое предложение, но специальная прослойка софта (написанная скрытыми промпт-инженерами) будет оборачивать этот запрос в сложную инженерную конструкцию с добавлением «секретных ингредиентов» перед отправкой в базовую модель.

Парсонс приводит аналогию из выпуска подкаста «Reply All», где журналисты искали забытую песню из детства одного из героев и наткнулись на женщину, чья редкая профессия заключалась в продюсировании музыки исключительно для групп, желающих звучать в точности как канадская рок-группа Barenaked Ladies. В ИИ-индустрии возникнут подобные гипер-нишевые специалисты, которые будут профессионально генерировать исключительно руки, волосы или создавать визуал для корпоративного SAS-софта.

Концепция «10x промпт-инженера» — это чисто технологическая метафора. В музыкальной индустрии никто не говорит «10x звукорежиссер», хотя очевидно, что топ-профессионалы обладают уникальным талантом. Индустрия ИИ повторит путь кинематографа или музыки, где за финальным продуктом стоит огромный список узкоспециализированных профессий.

🖼️ Мемы против высокого искусства 37:43

В финале беседы ведущий и гость затронули тему субъективности восприятия визуала. На вопрос о том, какие изображения сейчас наиболее популярны в сети, ведущий отмечает, что, по его мнению, это мемы в Twitter — максимально простые картинки с наложенным поверх текстом капслоком.

Это доказывает, что общественному резонансу вовсе не обязательно требуется сложная, рафинированная эстетика, которую способны выдавать современные нейросети. Тем не менее, пока ИИ не научился самостоятельно создавать «10x мемы», человеческий фактор остается ключевым звеном креативного процесса.