Сандер Шульхофф: «Автоматизация промптов уже побеждает экспертов-людей»

The Cognitive Revolution 2,2 тыс. 1 ч 16 мин 5 мин 09.07.2024
Главное

Основатель LearnPrompting.org Сандер Шульхофф (Sander Schulhoff) представил масштабное исследование «The Prompt Report» — 78-страничный аналитический обзор, систематизирующий сотни научных работ в области промпт-инжиниринга. В интервью обсуждаются конкретные механизмы повышения точности моделей, превосходство автоматической оптимизации над ручным трудом и текущие ограничения ИИ-агентов.

📝 «The Prompt Report»: Методология и создание таксономии 12:42

Работа над докладом заняла девять месяцев и потребовала участия междисциплинарной команды, включая экспертов по предотвращению самоубийств для специфических кейс-стади . Чтобы справиться с огромным объемом литературы (тысячи препринтов на arXiv), Сандер Шульхофф и его команда разработали гибридный пайплайн:

Одним из важных терминологических уточнений доклада стало разграничение понятий «In-context learning» (ICL) и «Few-shot prompting». По словам Шульхоффа, многие исследователи ошибочно считают их синонимами, хотя ICL — это более широкая концепция спецификации задачи внутри контекста, описанная еще в оригинальной работе OpenAI по GPT-3 (Brown et al., 2020) .

💎 Шесть правил идеального Few-shot промпта 27:43

Сандер Шульхофф выделил шесть ключевых факторов, влияющих на точность модели при использовании примеров (exemplars) в промпте. Эти рекомендации основаны на эмпирических данных множества изученных работ:

  1. Количество примеров: В целом, чем больше примеров, тем выше точность. Необходимо балансировать между стоимостью токенов и качеством .
  2. Порядок следования: Критически важный аспект. Шульхофф утверждает, что неудачный порядок примеров может снизить точность с 90% до 0% . Рекомендуется использовать случайный порядок, чтобы избежать предвзятости модели к последним показанным меткам .
  3. Распределение меток: Для классификации лучше использовать сбалансированное количество примеров для каждого класса. Однако, если в реальных данных есть явный перекос (например, 90% позитивных отзывов), отражение этой пропорции в промпте может помочь модели .
  4. Качество разметки: Хотя модели демонстрируют некоторую устойчивость к ошибкам в примерах, для максимальной точности метки должны быть верными .
  5. Формат: Использование стандартных паттернов (например, Q: [input] / A: [output]) предпочтительнее экзотических. Это связано с тем, что в обучающей выборке моделей такие структуры встречаются чаще, что делает «ландшафт функции потерь» более гладким для модели .
  6. Сходство примеров: Динамический подбор примеров, наиболее похожих на текущий запрос (по принципу RAG), обычно работает лучше, чем использование фиксированного набора разнообразных примеров .

🧠 Продвинутые техники: Цепочки мыслей и декомпозиция 22:39

В докладе подробно разбираются методы, позволяющие модели «рассуждать». Шульхофф разделяет генерацию цепочек мыслей (Chain of Thought, CoT) и декомпозицию задач .

Для открытых генеративных задач (например, написание сценария) Шульхофф советует использовать многоагентные системы, где один агент выступает автором, другой — редактором, а третий — корректором стиля . Однако он признает, что такие системы пока сложны в реализации и не всегда оправдывают затраты .

🖼️ Мультимодальность и мультиязычность 1:02:19

В области мультиязычности Сандер Шульхофф выделяет «мультиязычное ансамблирование» как одну из самых креативных находок: выполнение задачи на нескольких языках с последующим сопоставлением результатов .

В мультимодальном промптинге (текст + изображения) выделяется техника Chain of Image Prompting:

Шульхофф отмечает, что работа с видео-моделями (такими как Runway Gen-3) сейчас находится на стадии «черной магии», напоминая ранние этапы GPT-3, когда от пользователя требовалась экстремальная детализация и специфические ключевые слова для получения приемлемого результата .

🤖 Поражение эксперта: DSPy против человека 1:09:51

Одним из самых ярких моментов интервью стал рассказ о том, как автоматизированная система оптимизации промптов DSPy (или «dispy») превзошла Сандера Шульхоффа в честном соревновании .

Сандер потратил около 20 часов на ручную разработку промпта для сложной бинарной классификации . Его коллега использовал DSPy, предоставив системе те же обучающие примеры. В результате автоматизированная система создала промпт, который показал значительно лучшие результаты на тестовой выборке .

По мнению Шульхоффа, это доказывает, что будущее промпт-инжиниринга лежит в области алгоритмической оптимизации, а не ручного подбора слов . Для работы таких систем необходимы качественные «золотые стандарты» ответов (ground truth), на которых алгоритм может обучаться .

🛠️ Будущее агентов и безопасность 1:07:44

Несмотря на ажиотаж вокруг ИИ-агентства, Шульхофф скептичен относительно их текущего состояния. Он считает, что для надежной работы агентов нужен «архитектурный сдвиг», который сделает использование инструментов (tool use) первоочередной функцией модели, а не побочным эффектом обучения .

В вопросах безопасности Шульхофф придерживается мнения, что защита от джейлбрейков — это «игра в кошки-мышки», в которой защита пока проигрывает . Он упомянул компанию Haize Labs, чьи продукты позволяют автоматизировать взлом моделей для получения опасного контента за считанные секунды . Единственным долгосрочным решением Сандер видит изменения на уровне обучения самих моделей и их архитектуры, а не внешние фильтры или «системные промпты-надзиратели» .

💬 Цитаты

«В вопросах Few-shot промптинга порядок примеров может изменить точность с 0% до 90%. Это крайне фрустрирует.»

Сандер Шульхофф 27:57

«Я потратил 20 часов на промпт, но автоматическая система DSPy с теми же данными просто разнесла меня на тесте.»

Сандер Шульхофф 1:11:11

«Защита моделей от взлома — это проигрышная игра, пока мы не начнем решать проблему на уровне архитектуры.»

Сандер Шульхофф 10:41
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Few-shot prompting
Техника предоставления модели нескольких примеров задачи внутри промпта.
In-context learning (ICL)
Способность модели обучаться выполнению задачи непосредственно из предоставленного текста без изменения весов.
Prompt Injection
Тип атаки, при которой пользовательские инструкции перехватывают управление моделью у системных инструкций.
Chain of Thought (CoT)
Метод побуждения модели к пошаговому рассуждению перед выдачей финального ответа.
📊 Цифры
🗓 Хронология
  1. Январь 2024 Сандер Шульхофф впервые посетил подкаст для обсуждения конкурса Hackaprompt.
  2. Июнь 2024 Выход масштабного исследования The Prompt Report.
⚖️ Другая сторона
Искусственный интеллект The Prompt Report Sander Schulhoff DSPy LearnPrompting.org Few-shot prompting