Сандер Шульхофф: «Автоматизация промптов уже побеждает экспертов-людей»

Основатель LearnPrompting.org Сандер Шульхофф (Sander Schulhoff) представил масштабное исследование «The Prompt Report» — 78-страничный аналитический обзор, систематизирующий сотни научных работ в области промпт-инжиниринга. В интервью обсуждаются конкретные механизмы повышения точности моделей, превосходство автоматической оптимизации над ручным трудом и текущие ограничения ИИ-агентов.

📝 «The Prompt Report»: Методология и создание таксономии 12:42

Работа над докладом заняла девять месяцев и потребовала участия междисциплинарной команды, включая экспертов по предотвращению самоубийств для специфических кейс-стади . Чтобы справиться с огромным объемом литературы (тысячи препринтов на arXiv), Сандер Шульхофф и его команда разработали гибридный пайплайн:

Поиск по ключевым словам: Использовались 44 ключевых слова в базах Semantic Scholar, ACL и arXiv .
Человеческая разметка: Исследователи вручную проверили около 1000 работ, чтобы определить критерии включения (например, методы, требующие дообучения/fine-tuning, исключались) .
ИИ-фильтрация: На основе человеческих данных была обучена модель для автоматической классификации оставшихся статей .
Тематическое моделирование: Для проверки структуры разделов (агенты, мультиязычность, мультимодальность) использовалось автоматизированное тематическое моделирование, которое подтвердило интуитивную таксономию Шульхоффа .

Одним из важных терминологических уточнений доклада стало разграничение понятий «In-context learning» (ICL) и «Few-shot prompting». По словам Шульхоффа, многие исследователи ошибочно считают их синонимами, хотя ICL — это более широкая концепция спецификации задачи внутри контекста, описанная еще в оригинальной работе OpenAI по GPT-3 (Brown et al., 2020) .

💎 Шесть правил идеального Few-shot промпта 27:43

Сандер Шульхофф выделил шесть ключевых факторов, влияющих на точность модели при использовании примеров (exemplars) в промпте. Эти рекомендации основаны на эмпирических данных множества изученных работ:

Количество примеров: В целом, чем больше примеров, тем выше точность. Необходимо балансировать между стоимостью токенов и качеством .
Порядок следования: Критически важный аспект. Шульхофф утверждает, что неудачный порядок примеров может снизить точность с 90% до 0% . Рекомендуется использовать случайный порядок, чтобы избежать предвзятости модели к последним показанным меткам .
Распределение меток: Для классификации лучше использовать сбалансированное количество примеров для каждого класса. Однако, если в реальных данных есть явный перекос (например, 90% позитивных отзывов), отражение этой пропорции в промпте может помочь модели .
Качество разметки: Хотя модели демонстрируют некоторую устойчивость к ошибкам в примерах, для максимальной точности метки должны быть верными .
Формат: Использование стандартных паттернов (например, Q: [input] / A: [output]) предпочтительнее экзотических. Это связано с тем, что в обучающей выборке моделей такие структуры встречаются чаще, что делает «ландшафт функции потерь» более гладким для модели .
Сходство примеров: Динамический подбор примеров, наиболее похожих на текущий запрос (по принципу RAG), обычно работает лучше, чем использование фиксированного набора разнообразных примеров .

🧠 Продвинутые техники: Цепочки мыслей и декомпозиция 22:39

В докладе подробно разбираются методы, позволяющие модели «рассуждать». Шульхофф разделяет генерацию цепочек мыслей (Chain of Thought, CoT) и декомпозицию задач .

Декомпозиция: Разбиение сложной проблемы на подзадачи. Грань между CoT и декомпозицией размыта, но Шульхофф считает их отдельными классами техник .
Ансамблирование: Запуск одного и того же промпта несколько раз и выбор наиболее частого ответа (majority vote). Это эффективно для задач с четким правильным ответом .
Самокритика: Получение ответа, за которым следует запрос на поиск ошибок в нем, и финальная итерация с исправлениями .

Для открытых генеративных задач (например, написание сценария) Шульхофф советует использовать многоагентные системы, где один агент выступает автором, другой — редактором, а третий — корректором стиля . Однако он признает, что такие системы пока сложны в реализации и не всегда оправдывают затраты .

🖼️ Мультимодальность и мультиязычность 1:02:19

В области мультиязычности Сандер Шульхофф выделяет «мультиязычное ансамблирование» как одну из самых креативных находок: выполнение задачи на нескольких языках с последующим сопоставлением результатов .

В мультимодальном промптинге (текст + изображения) выделяется техника Chain of Image Prompting:

Модель получает математическую или визуальную задачу .
В качестве промежуточного шага она генерирует код (например, на Python с SVG) для визуализации проблемы .
Затем модель «смотрит» на сгенерированное изображение, чтобы дать финальный ответ.

Шульхофф отмечает, что работа с видео-моделями (такими как Runway Gen-3) сейчас находится на стадии «черной магии», напоминая ранние этапы GPT-3, когда от пользователя требовалась экстремальная детализация и специфические ключевые слова для получения приемлемого результата .

🤖 Поражение эксперта: DSPy против человека 1:09:51

Одним из самых ярких моментов интервью стал рассказ о том, как автоматизированная система оптимизации промптов DSPy (или «dispy») превзошла Сандера Шульхоффа в честном соревновании .

Сандер потратил около 20 часов на ручную разработку промпта для сложной бинарной классификации . Его коллега использовал DSPy, предоставив системе те же обучающие примеры. В результате автоматизированная система создала промпт, который показал значительно лучшие результаты на тестовой выборке .

По мнению Шульхоффа, это доказывает, что будущее промпт-инжиниринга лежит в области алгоритмической оптимизации, а не ручного подбора слов . Для работы таких систем необходимы качественные «золотые стандарты» ответов (ground truth), на которых алгоритм может обучаться .

🛠️ Будущее агентов и безопасность 1:07:44

Несмотря на ажиотаж вокруг ИИ-агентства, Шульхофф скептичен относительно их текущего состояния. Он считает, что для надежной работы агентов нужен «архитектурный сдвиг», который сделает использование инструментов (tool use) первоочередной функцией модели, а не побочным эффектом обучения .

Проблема контроля: Агенты часто ошибаются в последовательности действий, что делает их опасными для критических задач (например, финансовых операций) .
Решение: Надежда возлагается на обучение с подкреплением (Reinforcement Learning), которое позволит моделям вырабатывать собственный сигнал вознаграждения и лучше осваивать внешние инструменты .

В вопросах безопасности Шульхофф придерживается мнения, что защита от джейлбрейков — это «игра в кошки-мышки», в которой защита пока проигрывает . Он упомянул компанию Haize Labs, чьи продукты позволяют автоматизировать взлом моделей для получения опасного контента за считанные секунды . Единственным долгосрочным решением Сандер видит изменения на уровне обучения самих моделей и их архитектуры, а не внешние фильтры или «системные промпты-надзиратели» .