Кристофер Поттс: «Языковые модели — это лишь двигатели, будущее за сложными системами»

Кристофер Поттс, профессор Стэнфордского университета, утверждает, что индустрия искусственного интеллекта слишком зациклена на масштабировании языковых моделей, в то время как реальная ценность и производительность создаются на уровне систем. В ходе вебинара он доказывает, что будущее ИИ — за «составными системами» (compound systems), где модель является лишь одним из компонентов, работающим в связке с инструментами, внешними данными и алгоритмами оптимизации.

🏎️ Почему языковая модель — это всего лишь двигатель, а не гоночный болид 0:09

По мнению Кристофера Поттса, современный дискурс в ИИ страдает от «моделецентричности». СМИ и компании фокусируются на анонсах новых версий — GPT-4o, Gemini, PaLM — и количестве их параметров, которое исчисляется сотнями миллиардов . Однако, как утверждает Поттс, любая модель, скачанная из интернета или обученная за миллионы долларов, остается «инертным артефактом», пока она просто лежит на диске . Она не может сделать ничего полезного, пока к ней не применят метод промптинга и стратегию генерации ответов (sampling).

Поттс приводит метафору с гонками «Формулы-1»:

Разработка ИИ-решения аналогична проектированию гоночного болида .
Языковая модель — это двигатель, но для победы в гонке нужны аэродинамика, шины, система управления и опытный пилот.
Современные разработчики ИИ часто ведут себя так, будто пытаются построить болид, просто прикручивая колеса к мощному двигателю .

Спикер убежден, что даже небольшая модель, интегрированная в умную систему, всегда превзойдет гигантскую модель, работающую в рамках примитивной системы . Это критически важно не только для точности, но и для соблюдения ограничений по стоимости, задержке (latency) и безопасности данных .

📊 Выбор метода генерации: за пределами простого текста 9:12

Первым шагом к превращению инертной модели в систему является выбор метода сэмплинга (sampling). Поттс подчеркивает, что не существует «единственно верного» способа заставить модель говорить; каждый выбор кардинально меняет поведение системы .

Существуют различные стратегии декодирования:

Жадный поиск (Greedy decoding): модель всегда выбирает самый вероятный следующий токен.
Top-p sampling: выбор из наиболее вероятных токенов согласно распределению.
Beam search: более глубокий поиск путей генерации для повышения качества.
Сэмплинг с ограничениями: принуждение модели выдавать ответы в строгом формате, например, валидном JSON .

Особое внимание Поттс уделяет стратегии «большинства завершений» (majority completion) . Вместо того чтобы просить модель выдать ответ за один шаг, система заставляет её сгенерировать несколько разных путей рассуждения (reasoning paths). Итоговым ответом системы считается тот, к которому пришло большинство этих путей . По словам спикера, именно такие процессы происходят «под капотом» новых моделей OpenAI серии o1, которые тратят значительное время на вычисления перед выдачей ответа .

📝 Хрупкость промптинга и эффект «бинарного файла» 13:37

Промпт-инжиниринг является сердцем разработки современных ИИ-систем, но Поттс называет его «душераздирающим» процессом из-за экстремальной чувствительности моделей к деталям .

Он приводит в пример исследование хрупкости модели Llama 2-7b:

На определенных задачах наличие или отсутствие двоеточия после слов «passage» и «answer» приводило к разнице в 80 пунктов в точности выполнения задания .
Это доказывает, что бессмысленно оценивать «чистую» модель — оценивать можно только связку «модель + стратегия промптинга» .

Поттс считает, что промпты на английском языке, которые мы видим в системных файлах (например, у Apple Intelligence), на самом деле являются «скомпилированными бинарными файлами» . Они создаются в ходе долгих циклов разработки и неразрывно связаны с конкретной версией модели. Попытка перенести промпт с GPT-4 на GPT-4o часто приводит к поломке всей системы .

🛠️ Переход от промпт-инжиниринга к программированию (DSPy) 23:34

Чтобы преодолеть хрупкость ручной настройки промптов, Поттс и его коллеги из Стэнфорда и Беркли продвигают концепцию «программирования языковых моделей» с помощью библиотеки DSPy .

Основные принципы DSPy:

Модульность: разработчик описывает логику системы (например, «вопрос-поиск-ответ») в стиле PyTorch, не прописывая текст промптов вручную .
Оптимизация на данных: библиотека сама подбирает лучшие инструкции и примеры (few-shot demonstrations), используя автоматические оптимизаторы .
Независимость от модели: если вы решите заменить дорогую модель Turbo на более компактную Llama2-13b, DSPy просто перекомпилирует систему под новую модель, сохранив логику .

В экспериментах Поттса использование DSPy позволило компактной модели Llama 2-13b практически сравняться по качеству с мощной GPT-3.5 Turbo на сложных задачах многоходовых рассуждений . Это подтверждает тезис о том, что правильная архитектура системы важнее сырой мощности отдельной нейросети.

🌍 Экономика, регулирование и будущее ИИ 30:04

Поттс отмечает важный рыночный тренд: 77% корпоративного использования ИИ приходится на модели размером 13 млрд параметров и меньше . Причина проста — стоимость и задержка. Крупные модели (70B+ параметров) могут выдавать ответ сотни миллисекунд и обходиться слишком дорого для массовых сервисов . Чтобы такие «маленькие, но могучие» модели приносили пользу, им необходим доступ к инструментам: калькуляторам, базам данных и веб-поиску .

С этим связан и вопрос регулирования. Поттс критикует попытки законодателей (например, законопроект SB-1047 в Калифорнии) ограничивать ИИ исходя из стоимости обучения или количества параметров . По мнению Поттса:

Губернатор Гэвин Ньюсом поступил мудро, наложив вето на этот закон .
Небольшая специализированная модель, имеющая доступ к критической инфраструктуре или интернету, может быть гораздо опаснее, чем гигантская «закрытая» модель, лежащая на диске без выхода в сеть .
Регулировать нужно поведение систем, а не размер артефактов .

В завершение вебинара Поттс дал прогноз развития отрасли:

2020 год: Эпоха масштабирования обучения без учителя (GPT-3).
2022 год: Масштабирование дообучения на инструкциях (ChatGPT).
2024 год: Масштабирование вычислений во время вывода (search/reasoning).
2025 год и далее: Масштабирование систем .

Поттс убежден, что в будущем мы увидим не один огромный сверхразум, а сложные координационные системы, состоящие из множества специализированных моделей и инструментов .