# Кристофер Поттс: «Языковые модели — это лишь двигатели, будущее за сложными системами»

Источник: https://www.youtube.com/watch?v=vRTcE19M-KE
Канал: Stanford Online
Опубликовано: 03.12.2024

---

Кристофер Поттс, профессор Стэнфордского университета, утверждает, что индустрия искусственного интеллекта слишком зациклена на масштабировании языковых моделей, в то время как реальная ценность и производительность создаются на уровне систем. В ходе вебинара он доказывает, что будущее ИИ — за «составными системами» (compound systems), где модель является лишь одним из компонентов, работающим в связке с инструментами, внешними данными и алгоритмами оптимизации.

## 🏎️ Почему языковая модель — это всего лишь двигатель, а не гоночный болид
[[JUMP:0:09]]

По мнению Кристофера Поттса, современный дискурс в ИИ страдает от «моделецентричности». СМИ и компании фокусируются на анонсах новых версий — GPT-4o, Gemini, PaLM — и количестве их параметров, которое исчисляется сотнями миллиардов [1:02]. Однако, как утверждает Поттс, любая модель, скачанная из интернета или обученная за миллионы долларов, остается «инертным артефактом», пока она просто лежит на диске [3:17]. Она не может сделать ничего полезного, пока к ней не применят метод промптинга и стратегию генерации ответов (sampling).

Поттс приводит метафору с гонками «Формулы-1»:

*   Разработка ИИ-решения аналогична проектированию гоночного болида [6:10].
*   Языковая модель — это двигатель, но для победы в гонке нужны аэродинамика, шины, система управления и опытный пилот.
*   Современные разработчики ИИ часто ведут себя так, будто пытаются построить болид, просто прикручивая колеса к мощному двигателю [7:20].

Спикер убежден, что даже небольшая модель, интегрированная в умную систему, всегда превзойдет гигантскую модель, работающую в рамках примитивной системы [7:46]. Это критически важно не только для точности, но и для соблюдения ограничений по стоимости, задержке (latency) и безопасности данных [8:12].

## 📊 Выбор метода генерации: за пределами простого текста
[[JUMP:09:12]]

Первым шагом к превращению инертной модели в систему является выбор метода сэмплинга (sampling). Поттс подчеркивает, что не существует «единственно верного» способа заставить модель говорить; каждый выбор кардинально меняет поведение системы [13:00].

Существуют различные стратегии декодирования:

1.  **Жадный поиск (Greedy decoding):** модель всегда выбирает самый вероятный следующий токен.
2.  **Top-p sampling:** выбор из наиболее вероятных токенов согласно распределению.
3.  **Beam search:** более глубокий поиск путей генерации для повышения качества.
4.  **Сэмплинг с ограничениями:** принуждение модели выдавать ответы в строгом формате, например, валидном JSON [10:06].

Особое внимание Поттс уделяет стратегии «большинства завершений» (majority completion) [12:09]. Вместо того чтобы просить модель выдать ответ за один шаг, система заставляет её сгенерировать несколько разных путей рассуждения (reasoning paths). Итоговым ответом системы считается тот, к которому пришло большинство этих путей [12:22]. По словам спикера, именно такие процессы происходят «под капотом» новых моделей OpenAI серии o1, которые тратят значительное время на вычисления перед выдачей ответа [42:50].

## 📝 Хрупкость промптинга и эффект «бинарного файла»
[[JUMP:13:37]]

Промпт-инжиниринг является сердцем разработки современных ИИ-систем, но Поттс называет его «душераздирающим» процессом из-за экстремальной чувствительности моделей к деталям [14:03].

Он приводит в пример исследование хрупкости модели Llama 2-7b:

*   На определенных задачах наличие или отсутствие двоеточия после слов «passage» и «answer» приводило к разнице в 80 пунктов в точности выполнения задания [18:22].
*   Это доказывает, что бессмысленно оценивать «чистую» модель — оценивать можно только связку «модель + стратегия промптинга» [18:50].

Поттс считает, что промпты на английском языке, которые мы видим в системных файлах (например, у Apple Intelligence), на самом деле являются «скомпилированными бинарными файлами» [22:11]. Они создаются в ходе долгих циклов разработки и неразрывно связаны с конкретной версией модели. Попытка перенести промпт с GPT-4 на GPT-4o часто приводит к поломке всей системы [20:23].

## 🛠️ Переход от промпт-инжиниринга к программированию (DSPy)
[[JUMP:23:34]]

Чтобы преодолеть хрупкость ручной настройки промптов, Поттс и его коллеги из Стэнфорда и Беркли продвигают концепцию «программирования языковых моделей» с помощью библиотеки DSPy [24:14].

Основные принципы DSPy:

*   **Модульность:** разработчик описывает логику системы (например, «вопрос-поиск-ответ») в стиле PyTorch, не прописывая текст промптов вручную [25:47].
*   **Оптимизация на данных:** библиотека сама подбирает лучшие инструкции и примеры (few-shot demonstrations), используя автоматические оптимизаторы [26:16].
*   **Независимость от модели:** если вы решите заменить дорогую модель Turbo на более компактную Llama2-13b, DSPy просто перекомпилирует систему под новую модель, сохранив логику [27:25].

В экспериментах Поттса использование DSPy позволило компактной модели Llama 2-13b практически сравняться по качеству с мощной GPT-3.5 Turbo на сложных задачах многоходовых рассуждений [29:38]. Это подтверждает тезис о том, что правильная архитектура системы важнее сырой мощности отдельной нейросети.

## 🌍 Экономика, регулирование и будущее ИИ
[[JUMP:30:04]]

Поттс отмечает важный рыночный тренд: 77% корпоративного использования ИИ приходится на модели размером 13 млрд параметров и меньше [30:20]. Причина проста — стоимость и задержка. Крупные модели (70B+ параметров) могут выдавать ответ сотни миллисекунд и обходиться слишком дорого для массовых сервисов [30:57]. Чтобы такие «маленькие, но могучие» модели приносили пользу, им необходим доступ к инструментам: калькуляторам, базам данных и веб-поиску [31:39].

С этим связан и вопрос регулирования. Поттс критикует попытки законодателей (например, законопроект SB-1047 в Калифорнии) ограничивать ИИ исходя из стоимости обучения или количества параметров [34:10]. По мнению Поттса:

*   Губернатор Гэвин Ньюсом поступил мудро, наложив вето на этот закон [35:19].
*   Небольшая специализированная модель, имеющая доступ к критической инфраструктуре или интернету, может быть гораздо опаснее, чем гигантская «закрытая» модель, лежащая на диске без выхода в сеть [34:52].
*   Регулировать нужно поведение систем, а не размер артефактов [35:35].

В завершение вебинара Поттс дал прогноз развития отрасли:

1.  **2020 год:** Эпоха масштабирования обучения без учителя (GPT-3).
2.  **2022 год:** Масштабирование дообучения на инструкциях (ChatGPT).
3.  **2024 год:** Масштабирование вычислений во время вывода (search/reasoning).
4.  **2025 год и далее:** Масштабирование систем [38:59].

Поттс убежден, что в будущем мы увидим не один огромный сверхразум, а сложные координационные системы, состоящие из множества специализированных моделей и инструментов [33:29].