# Как сделать GenAI реально полезным: уроки Стэнфорда и OpenAI

Источник: https://www.youtube.com/watch?v=9-eXLFvAoKM
Канал: Stanford Online
Опубликовано: 16.07.2025

---

Практическое применение генеративного ИИ требует перехода от простого «общения» с чат-ботами к глубокому пониманию архитектуры систем, окружающей модели. В рамках вебинара **Stanford Online** эксперты из индустрии и академической среды обсудили, как современные LLM (Large Language Models) обретают свои возможности и почему успех продукта на 90% зависит от того, что происходит «вокруг» нейросети.

В дискуссии приняли участие **Кристофер Поттс (Christopher Potts)**, профессор лингвистики Стэнфордского университета, и **Мишель Покрасс (Michelle Pokrass)**, руководитель группы исследований пост-тренинга в OpenAI. Модератором выступил **Адитья Чаллапалли (Aditya Challapally)**, инженер по машинному обучению в Microsoft.

## 🧠 Природа моделей: Базовые vs Пост-обученные
[[JUMP:02:18]]

Одним из главных заблуждений в индустрии Кристофер Поттс считает недооценку способностей «базовых» моделей (base models) — тех, что еще не прошли стадию тонкой настройки (fine-tuning) [2:31]. По его словам, такие модели обладают колоссальным скрытым потенциалом и креативностью, хотя и остаются менее предсказуемыми. Пост-тренинг, которым занимается команда Мишель Покрасс в OpenAI, — это процесс «извлечения» этих скрытых возможностей и приведения их в соответствие с человеческими предпочтениями [3:10].

Мишель Покрасс поясняет разницу на наглядном примере:

*   **Базовая модель:** Обучена предсказывать следующий токен на огромном массиве данных. Если спросить её «Как ездить на велосипеде?», она может ответить списком других вопросов: «Как водить машину?», «Как плавать?» [5:25]. Она не осознает себя как помощника.
*   **Пост-обученная модель (ChatGPT):** Это результат выравнивания (alignment), когда модель учат быть полезным ассистентом [5:37].

Главный инсайт Мишель заключается в том, что способности ИИ часто являются «эмерджентными» (возникающими спонтанно при масштабировании) [6:32]. Никто в OpenAI изначально не планировал, что GPT-4 будет феноменально писать код — эта способность проявилась сама по мере роста масштаба обучения.

## 🛠 Эволюция GPT-4: От бенчмарков к реальным нуждам разработчиков
[[JUMP:07:45]]

Создание модели GPT-4.1 стало важным этапом, когда фокус сместился с максимизации «абстрактного интеллекта» на конкретную применимость для разработчиков [9:09]. 

Группа пост-тренинга OpenAI выделила четыре приоритета для этой версии:

1.  **Длинный контекст:** Способность обрабатывать огромные пакеты документов без потери качества.
2.  **Вызов инструментов (tool calling):** Повышение «упорства» модели при обращении к внешним API и софту [8:39].
3.  **Написание кода:** Улучшение логики программирования.
4.  **Следование инструкциям (instruction following):** Способность точно выполнять десятки условий в одном промте [8:54].

По словам Мишель, ключевым отличием в разработке стало использование внутренних систем оценки (evals), основанных на реальных сценариях использования, а не на общедоступных академических тестах [10:04].

## 🏗 Системный подход: Важность «обвязки»
[[JUMP:10:42]]

Кристофер Поттс утверждает: отличная модель в плохой системе — это плохой продукт [11:10]. Если вы ожидаете от ИИ генерацию JSON-кода, но неправильно настроили параметры выборки (sampling) или программную среду, вы получите «мусор» на выходе, в чем не будет вины самой модели.

Успех GenAI-продукта зависит от качества инструментов, к которым у модели есть доступ, и от того, насколько хорошо спроектировано ПО вокруг неё [11:52]. Мишель Покрасс добавляет, что сейчас на рынке наблюдается «capabilities overhang» (избыток возможностей): даже если развитие моделей остановится на уровне GPT-4, человечеству понадобится еще около пяти лет, чтобы реализовать весь потенциал этой технологии через создание качественных системных оболочек [33:49].

## ⚖️ Проблема ценностей и «душа» ИИ
[[JUMP:18:11]]

Вопрос о том, чьи ценности кодируются в ИИ, остается дискуссионным. Мишель Покрасс отмечает, что создать модель, свободную от предвзятости (bias-free) для всех людей на Земле, невозможно [20:22]. OpenAI решает это через публикацию «Model Spec» — открытого документа, описывающего желаемое поведение модели, и приглашает всё общество к его обсуждению [21:05].

Кристофер Поттс предлагает «неочевидный» подход к обучению нормам: модель нельзя обучить избегать табуированных тем (например, ругательств), просто удалив их из обучающей выборки [23:06]. В таком случае ИИ вырастет «наивным» и не будет понимать контекста. Правильный путь — показать модели запрещенный контент и четко проинструктировать её, почему и когда его нельзя использовать [23:18].

## 📈 Революция в оценке: Как сделать ИИ полезным
[[JUMP:38:23]]

Самым важным фактором успеха ИИ-стартапов эксперты называют наличие собственных систем оценки — **evals** [36:20].

**Практические советы от Кристофера Поттса и Мишель Покрасс:**

*   **Начните с малого:** Даже 12 вручную описанных кейсов «правильного» поведения системы лучше, чем бесконечное тестирование на живых пользователях или слепое доверие бенчмаркам из Твиттера [39:00].
*   **Используйте few-shot примеры:** Вместо того чтобы 50 раз умолять модель «сделай вот так», просто дайте в промте 3–5 примеров «вход — идеальный выход» [40:06].
*   **LLM как судья:** Использование мощной модели для оценки работы более слабой модели (или системы в целом) крайне эффективно [43:40]. Чтобы избежать путаницы, разбивайте сложные критерии оценки на отдельные проходы.
*   **Синтетические данные:** Кристофер Поттс призывает отбросить академический снобизм относительно «только человеческих данных» [45:01]. Синтетические данные позволяют быстрее искать ошибки и «галлюцинации» системы.

## 🔮 Взгляд в будущее: Интерпретируемость
[[JUMP:47:44]]

В завершение Кристофер Поттс высказал оптимистичный прогноз относительно «прозрачности» нейросетей. Существует миф, что нейронные сети — это «черный ящик», который принципиально не поддается анализу [48:11]. Однако исследования показывают обратное: по мере роста качества моделей в них спонтанно формируются структуры, которые человек может интерпретировать [48:49]. Это открывает двери для глубокого научного понимания того, как именно ИИ обобщает знания и принимает решения.