Мишель Покрасс и Кристофер Поттс: как на самом деле работают LLM

🧠 Будущее GenAI: Уроки от OpenAI и Стэнфорда 1:40

Технологический ландшафт генеративного искусственного интеллекта стремительно меняется, ставя перед разработчиками новые вызовы. В рамках вебинара Стэнфордского университета Адитья Чаллапалли (Microsoft) обсудил текущее состояние индустрии с Мишель Покрасс (OpenAI) и профессором Кристофером Поттсом (Стэнфорд). Эксперты проанализировали, как модели «обучаются» следовать инструкциям, почему важно развивать системы вокруг нейросетей и что на самом деле скрывается за термином «понимание» ИИ.

🏗 Базовые модели vs Пост-обучение 2:18

По мнению Кристофера Поттса, люди склонны недооценивать возможности базовых моделей — систем, которые прошли этап предварительного обучения на огромных массивах данных, но еще не подверглись тонкой настройке (post-training). Несмотря на то, что такие модели менее предсказуемы, они обладают скрытым творческим потенциалом, который можно раскрыть с помощью качественного «инженерного контекста».

Мишель Покрасс пояснила, что база — это «сырой интеллект», а пост-обучение превращает его в полезного ассистента, выравнивая модель по человеческим предпочтениям. Внедрение ChatGPT стало «магическим моментом», так как впервые модели стали интуитивно понятными для общения, а не просто завершали фразы на основе вероятностей.

Основные тезисы экспертов о развитии моделей:

Масштабирование ведет к эмерджентности: Многие способности (например, мастерство в программировании) возникают спонтанно при достижении определенного масштаба обучения.
SFT (Supervised Fine-Tuning): Это фундаментальный и контролируемый процесс, который в сочетании с качественной курацией данных позволяет достичь отличных результатов.
Итеративность: Обновление моделей на основе «реального мира» (фидбека разработчиков) — самый эффективный способ повышения их полезности.

🛠 Проблемы надежности и управления 10:42

Успех GenAI-продукта зависит не только от мощности модели, но и от системного окружения, окружающего её. Кристофер Поттс подчеркнул: даже слабая модель может работать великолепно, если вокруг неё выстроена надежная программная архитектура, и наоборот.

Мишель Покрасс добавила, что в последних разработках, таких как GPT-4.1, приоритет был смещен с «максимизации интеллекта» на «удобство для разработчика». Это включает:

Длинный контекст: Возможность загрузки большого объема релевантных документов.
Вызов инструментов (Tool calling): Способность модели эффективно использовать внешние функции.
Управляемость (Steerability): Строгое следование инструкциям, что критически важно для бизнес-задач.

Оба эксперта сошлись во мнении, что при повышении качества моделей возникает «опасный момент»: люди начинают доверять ИИ слепо, теряя бдительность. По словам Покрасс, OpenAI активно работает над тем, чтобы все источники информации были видны в интерфейсе, помогая пользователям проверять работу ИИ.

⚖️ Кто определяет ценности ИИ? 18:11

Вопрос о том, чьи именно ценности кодируются в нейросетях, остается открытым. Поттс отметил: «Это работа для целой деревни». Процесс включает курацию данных, архитектурные решения и системные промпты.

Мишель Покрасс рассказала об артефакте под названием «Model Spec» (спецификация модели). Это открытый документ, который описывает желаемое поведение ИИ и постоянно обновляется на основе отзывов сообщества. По её мнению, это «живой артефакт», который должен меняться вместе с развитием общества.

Интересный контраргумент выдвинул Поттс относительно цензуры данных: если удалить из обучающей выборки все «плохие» вещи (например, ругательства), модель не научится понимать социальные табу. Вместо «очистки» данных он предложил стратегию обучения модели пониманию того, как и когда уместно использовать подобные выражения, подобно тому, как воспитывают людей.

💡 Будущее стартапов и практические советы 26:16

Мишель Покрасс считает, что LLM уже обладают всеми необходимыми мощностями для решения множества бизнес-задач, но компании пока не выстроили вокруг них нужную инфраструктуру.

Для успеха AI-стартапа критически важны два фактора:

Evals (Оценочные тесты): Успешные команды понимают свои задачи и строят системы тестирования, чтобы проверять, справляется ли модель с конкретным продуктовым сценарием.
Few-shot промптинг: Поттс советует не «уговаривать» модель, а давать несколько примеров (few-shot) того, что именно вы хотите получить. Это значительно повышает шансы на правильное выполнение редких или сложных задач.

Оба эксперта призвали разработчиков не бояться использования синтетических данных для тестирования. По их словам, это часто оказывается эффективнее, чем попытки полагаться исключительно на человеческую разметку, которая также может страдать от предвзятости.