# Сандер Шульхофф: «Автоматизация промптов уже побеждает экспертов-людей»

Источник: https://www.youtube.com/watch?v=tv8kqWuEA9Q
Канал: The Cognitive Revolution
Опубликовано: 09.07.2024

---

Основатель LearnPrompting.org Сандер Шульхофф (Sander Schulhoff) представил масштабное исследование «The Prompt Report» — 78-страничный аналитический обзор, систематизирующий сотни научных работ в области промпт-инжиниринга. В интервью обсуждаются конкретные механизмы повышения точности моделей, превосходство автоматической оптимизации над ручным трудом и текущие ограничения ИИ-агентов.

## 📝 «The Prompt Report»: Методология и создание таксономии
[[JUMP:12:42]]

Работа над докладом заняла девять месяцев и потребовала участия междисциплинарной команды, включая экспертов по предотвращению самоубийств для специфических кейс-стади [15:48]. Чтобы справиться с огромным объемом литературы (тысячи препринтов на arXiv), Сандер Шульхофф и его команда разработали гибридный пайплайн:

*   **Поиск по ключевым словам:** Использовались 44 ключевых слова в базах Semantic Scholar, ACL и arXiv [17:18].
*   **Человеческая разметка:** Исследователи вручную проверили около 1000 работ, чтобы определить критерии включения (например, методы, требующие дообучения/fine-tuning, исключались) [17:30].
*   **ИИ-фильтрация:** На основе человеческих данных была обучена модель для автоматической классификации оставшихся статей [17:55].
*   **Тематическое моделирование:** Для проверки структуры разделов (агенты, мультиязычность, мультимодальность) использовалось автоматизированное тематическое моделирование, которое подтвердило интуитивную таксономию Шульхоффа [16:52].

Одним из важных терминологических уточнений доклада стало разграничение понятий «In-context learning» (ICL) и «Few-shot prompting». По словам Шульхоффа, многие исследователи ошибочно считают их синонимами, хотя ICL — это более широкая концепция спецификации задачи внутри контекста, описанная еще в оригинальной работе OpenAI по GPT-3 (Brown et al., 2020) [26:25].

## 💎 Шесть правил идеального Few-shot промпта
[[JUMP:27:43]]

Сандер Шульхофф выделил шесть ключевых факторов, влияющих на точность модели при использовании примеров (exemplars) в промпте. Эти рекомендации основаны на эмпирических данных множества изученных работ:

1.  **Количество примеров:** В целом, чем больше примеров, тем выше точность. Необходимо балансировать между стоимостью токенов и качеством [29:03].
2.  **Порядок следования:** Критически важный аспект. Шульхофф утверждает, что неудачный порядок примеров может снизить точность с 90% до 0% [27:57]. Рекомендуется использовать **случайный порядок**, чтобы избежать предвзятости модели к последним показанным меткам [29:16].
3.  **Распределение меток:** Для классификации лучше использовать сбалансированное количество примеров для каждого класса. Однако, если в реальных данных есть явный перекос (например, 90% позитивных отзывов), отражение этой пропорции в промпте может помочь модели [29:42].
4.  **Качество разметки:** Хотя модели демонстрируют некоторую устойчивость к ошибкам в примерах, для максимальной точности метки должны быть верными [30:21].
5.  **Формат:** Использование стандартных паттернов (например, `Q: [input] / A: [output]`) предпочтительнее экзотических. Это связано с тем, что в обучающей выборке моделей такие структуры встречаются чаще, что делает «ландшафт функции потерь» более гладким для модели [31:54].
6.  **Сходство примеров:** Динамический подбор примеров, наиболее похожих на текущий запрос (по принципу RAG), обычно работает лучше, чем использование фиксированного набора разнообразных примеров [32:35].

## 🧠 Продвинутые техники: Цепочки мыслей и декомпозиция
[[JUMP:22:39]]

В докладе подробно разбираются методы, позволяющие модели «рассуждать». Шульхофф разделяет генерацию цепочек мыслей (Chain of Thought, CoT) и декомпозицию задач [23:05].

*   **Декомпозиция:** Разбиение сложной проблемы на подзадачи. Грань между CoT и декомпозицией размыта, но Шульхофф считает их отдельными классами техник [23:45].
*   **Ансамблирование:** Запуск одного и того же промпта несколько раз и выбор наиболее частого ответа (majority vote). Это эффективно для задач с четким правильным ответом [24:39].
*   **Самокритика:** Получение ответа, за которым следует запрос на поиск ошибок в нем, и финальная итерация с исправлениями [24:51].

Для открытых генеративных задач (например, написание сценария) Шульхофф советует использовать многоагентные системы, где один агент выступает автором, другой — редактором, а третий — корректором стиля [57:58]. Однако он признает, что такие системы пока сложны в реализации и не всегда оправдывают затраты [58:12].

## 🖼️ Мультимодальность и мультиязычность
[[JUMP:1:02:19]]

В области мультиязычности Сандер Шульхофф выделяет «мультиязычное ансамблирование» как одну из самых креативных находок: выполнение задачи на нескольких языках с последующим сопоставлением результатов [1:02:32].

В мультимодальном промптинге (текст + изображения) выделяется техника **Chain of Image Prompting**:

*   Модель получает математическую или визуальную задачу [1:03:25].
*   В качестве промежуточного шага она генерирует код (например, на Python с SVG) для визуализации проблемы [1:03:38].
*   Затем модель «смотрит» на сгенерированное изображение, чтобы дать финальный ответ.

Шульхофф отмечает, что работа с видео-моделями (такими как Runway Gen-3) сейчас находится на стадии «черной магии», напоминая ранние этапы GPT-3, когда от пользователя требовалась экстремальная детализация и специфические ключевые слова для получения приемлемого результата [1:04:18].

## 🤖 Поражение эксперта: DSPy против человека
[[JUMP:1:09:51]]

Одним из самых ярких моментов интервью стал рассказ о том, как автоматизированная система оптимизации промптов **DSPy** (или «dispy») превзошла Сандера Шульхоффа в честном соревновании [1:10:57].

Сандер потратил около 20 часов на ручную разработку промпта для сложной бинарной классификации [1:11:11]. Его коллега использовал DSPy, предоставив системе те же обучающие примеры. В результате автоматизированная система создала промпт, который показал значительно лучшие результаты на тестовой выборке [1:11:24].

По мнению Шульхоффа, это доказывает, что будущее промпт-инжиниринга лежит в области алгоритмической оптимизации, а не ручного подбора слов [1:11:37]. Для работы таких систем необходимы качественные «золотые стандарты» ответов (ground truth), на которых алгоритм может обучаться [1:11:49].

## 🛠️ Будущее агентов и безопасность
[[JUMP:1:07:44]]

Несмотря на ажиотаж вокруг ИИ-агентства, Шульхофф скептичен относительно их текущего состояния. Он считает, что для надежной работы агентов нужен «архитектурный сдвиг», который сделает использование инструментов (tool use) первоочередной функцией модели, а не побочным эффектом обучения [1:08:20].

*   **Проблема контроля:** Агенты часто ошибаются в последовательности действий, что делает их опасными для критических задач (например, финансовых операций) [1:09:37].
*   **Решение:** Надежда возлагается на обучение с подкреплением (Reinforcement Learning), которое позволит моделям вырабатывать собственный сигнал вознаграждения и лучше осваивать внешние инструменты [1:08:46].

В вопросах безопасности Шульхофф придерживается мнения, что защита от джейлбрейков — это «игра в кошки-мышки», в которой защита пока проигрывает [10:41]. Он упомянул компанию Haize Labs, чьи продукты позволяют автоматизировать взлом моделей для получения опасного контента за считанные секунды [11:20]. Единственным долгосрочным решением Сандер видит изменения на уровне обучения самих моделей и их архитектуры, а не внешние фильтры или «системные промпты-надзиратели» [11:47].