Как сделать GenAI реально полезным: уроки Стэнфорда и OpenAI

Stanford Online 12,8 тыс. 49 мин 4 мин 16.07.2025
Главное

Практическое применение генеративного ИИ требует перехода от простого «общения» с чат-ботами к глубокому пониманию архитектуры систем, окружающей модели. В рамках вебинара Stanford Online эксперты из индустрии и академической среды обсудили, как современные LLM (Large Language Models) обретают свои возможности и почему успех продукта на 90% зависит от того, что происходит «вокруг» нейросети.

В дискуссии приняли участие Кристофер Поттс (Christopher Potts), профессор лингвистики Стэнфордского университета, и Мишель Покрасс (Michelle Pokrass), руководитель группы исследований пост-тренинга в OpenAI. Модератором выступил Адитья Чаллапалли (Aditya Challapally), инженер по машинному обучению в Microsoft.

🧠 Природа моделей: Базовые vs Пост-обученные 2:18

Одним из главных заблуждений в индустрии Кристофер Поттс считает недооценку способностей «базовых» моделей (base models) — тех, что еще не прошли стадию тонкой настройки (fine-tuning) . По его словам, такие модели обладают колоссальным скрытым потенциалом и креативностью, хотя и остаются менее предсказуемыми. Пост-тренинг, которым занимается команда Мишель Покрасс в OpenAI, — это процесс «извлечения» этих скрытых возможностей и приведения их в соответствие с человеческими предпочтениями .

Мишель Покрасс поясняет разницу на наглядном примере:

Главный инсайт Мишель заключается в том, что способности ИИ часто являются «эмерджентными» (возникающими спонтанно при масштабировании) . Никто в OpenAI изначально не планировал, что GPT-4 будет феноменально писать код — эта способность проявилась сама по мере роста масштаба обучения.

🛠 Эволюция GPT-4: От бенчмарков к реальным нуждам разработчиков 7:45

Создание модели GPT-4.1 стало важным этапом, когда фокус сместился с максимизации «абстрактного интеллекта» на конкретную применимость для разработчиков .

Группа пост-тренинга OpenAI выделила четыре приоритета для этой версии:

  1. Длинный контекст: Способность обрабатывать огромные пакеты документов без потери качества.
  2. Вызов инструментов (tool calling): Повышение «упорства» модели при обращении к внешним API и софту .
  3. Написание кода: Улучшение логики программирования.
  4. Следование инструкциям (instruction following): Способность точно выполнять десятки условий в одном промте .

По словам Мишель, ключевым отличием в разработке стало использование внутренних систем оценки (evals), основанных на реальных сценариях использования, а не на общедоступных академических тестах .

🏗 Системный подход: Важность «обвязки» 10:42

Кристофер Поттс утверждает: отличная модель в плохой системе — это плохой продукт . Если вы ожидаете от ИИ генерацию JSON-кода, но неправильно настроили параметры выборки (sampling) или программную среду, вы получите «мусор» на выходе, в чем не будет вины самой модели.

Успех GenAI-продукта зависит от качества инструментов, к которым у модели есть доступ, и от того, насколько хорошо спроектировано ПО вокруг неё . Мишель Покрасс добавляет, что сейчас на рынке наблюдается «capabilities overhang» (избыток возможностей): даже если развитие моделей остановится на уровне GPT-4, человечеству понадобится еще около пяти лет, чтобы реализовать весь потенциал этой технологии через создание качественных системных оболочек .

⚖️ Проблема ценностей и «душа» ИИ 18:11

Вопрос о том, чьи ценности кодируются в ИИ, остается дискуссионным. Мишель Покрасс отмечает, что создать модель, свободную от предвзятости (bias-free) для всех людей на Земле, невозможно . OpenAI решает это через публикацию «Model Spec» — открытого документа, описывающего желаемое поведение модели, и приглашает всё общество к его обсуждению .

Кристофер Поттс предлагает «неочевидный» подход к обучению нормам: модель нельзя обучить избегать табуированных тем (например, ругательств), просто удалив их из обучающей выборки . В таком случае ИИ вырастет «наивным» и не будет понимать контекста. Правильный путь — показать модели запрещенный контент и четко проинструктировать её, почему и когда его нельзя использовать .

📈 Революция в оценке: Как сделать ИИ полезным 38:23

Самым важным фактором успеха ИИ-стартапов эксперты называют наличие собственных систем оценки — evals .

Практические советы от Кристофера Поттса и Мишель Покрасс:

🔮 Взгляд в будущее: Интерпретируемость 47:44

В завершение Кристофер Поттс высказал оптимистичный прогноз относительно «прозрачности» нейросетей. Существует миф, что нейронные сети — это «черный ящик», который принципиально не поддается анализу . Однако исследования показывают обратное: по мере роста качества моделей в них спонтанно формируются структуры, которые человек может интерпретировать . Это открывает двери для глубокого научного понимания того, как именно ИИ обобщает знания и принимает решения.

💬 Цитаты

«Базовая модель — это самая необработанная форма интеллекта. Она умна, но с ней невероятно трудно общаться.»

Мишель Покрасс 04:43

«Если бы мы заморозили развитие моделей на уровне GPT-4, нам бы все равно понадобилось еще лет пять, чтобы реализовать все её возможности.»

Мишель Покрасс 33:49

«Люди склонны думать, что оценка систем (evals) — это дорого и долго. Но 12 качественных кейсов — это уже шаг вперед по сравнению с просто «вайбом» от одного примера.»

Кристофер Поттс 39:26
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Base Model
Сырая нейросеть, обученная только предсказывать следующее слово, без настройки на диалог.
Post-training
Этап дообучения модели (RLHF, SFT) для превращения её в полезного ассистента.
Evals (Evaluations)
Наборы тестов и критериев для проверки точности и безопасности ответов ИИ.
Few-shot prompting
Метод составления запроса, при котором модели дают несколько примеров решения задачи.
📊 Цифры
🗓 Хронология
  1. 2021 Время, когда фактологическая точность моделей была настолько низкой, что пользователи сохраняли бдительность.
  2. Ноябрь 2022 Запуск ChatGPT, ставший вехой в области выравнивания (alignment) моделей.
⚖️ Другая сторона
Искусственный интеллект OpenAI ChatGPT GPT-4 пост-тренинг Stanford University