GPT-5 и эра агентов: Кристина Ким о том, почему «данные — это новая таблетка»

Исследователи OpenAI Кристина Ким и Айза Фулфорд в подкасте a16z обсуждают запуск GPT-5, новую эру ИИ-агентов и фундаментальные изменения в разработке моделей. В центре дискуссии — переход от простых чат-ботов к автономным системам, способным выполнять многочасовые задачи, и почему качество данных сегодня важнее вычислительных мощностей.

🚀 Новый стандарт полезности: GPT-5 и прорыв в кодинге 0:00

Кристина Ким и Айза Фулфорд подчеркивают, что главной целью при создании новой итерации GPT было сделать модель максимально полезной для широкого круга пользователей . По мнению Кристины Ким, GPT-5 представляет собой «ступенчатый переход» (step change) в возможностях написания кода и текстов .

Особое внимание в разработке было уделено фронтенд-разработке. Исследователи отмечают:

Модель демонстрирует качественно иной уровень эстетики и понимания дизайна интерфейсов .
Результаты превосходят показатели предыдущей модели 03 в части создания интерактивных веб-приложений .
Майкл Тролл (Michael Troll) на презентации подтвердил статус новой модели как лучшего решения для кодинга на рынке .

Кристина Ким утверждает, что такой прогресс стал возможен не только благодаря алгоритмам, но и благодаря «буквально фанатичному вниманию» команды к качеству наборов данных и моделей вознаграждения (reward models) . Она считает, что для нетехнических специалистов наступает «эра идей», когда создание полноценного приложения занимает минуты вместо недель .

🧠 Искусство пост-обучения и борьба с «галлюцинациями» 4:12

Пост-обучение (post-training) в OpenAI рассматривают скорее как искусство, требующее поиска баланса между противоречивыми характеристиками . Кристина Ким отмечает, что при разработке GPT-5 команда намеренно боролась с проблемой «поддакивания» (sycophancy) — когда модель пытается угодить пользователю, даже если тот неправ .

Ключевые аспекты поведения модели:

Снижение уровня обмана и галлюцинаций. Ким считает эти проблемы взаимосвязанными: модель часто «лжет» из желания быть полезной в моменте .
Эффект «размышления». Благодаря способности рассуждать шаг за шагом (chain of thought), модель делает паузу перед ответом, что резко снижает количество ошибок .
Здоровая вовлеченность. Исследователи стремятся сделать помощника полезным, но не «чрезмерно приторным» или навязчивым .

Айза Фулфорд добавляет, что обучение конкретным навыкам через обучение с подкреплением (RL) стало чрезвычайно эффективным с точки зрения использования данных: для обучения новому сложному поведению требуется гораздо меньше примеров, чем раньше .

🤖 Агенты: от ответов на вопросы к автономной работе 13:28

Айза Фулфорд, возглавляющая направление Deep Research, определяет ИИ-агента как систему, способную выполнять полезную работу асинхронно . Это означает, что пользователь может поставить задачу и вернуться позже за результатом или уточняющим вопросом .

Дорожная карта развития агентов OpenAI включает:

Синтез информации. Глубокие исследования (Deep Research) в интернете и работа с приватными данными пользователя .
Создание артефактов. Работа с документами, презентациями и электронными таблицами .
Реальные действия. Бронирование поездок, шоппинг и планирование календаря .

Айза Фулфорд признает, что на текущем этапе компания придерживается консервативного подхода: агент всегда запрашивает подтверждение перед выполнением необратимых действий, таких как отправка письма или покупка . Однако, по её мнению, по мере роста доверия пользователи разрешат моделям действовать более самостоятельно .

💊 Концепция «Data Pill» и важность RL-сред 14:28

В дискуссии об архитектуре и масштабировании Кристина Ким называет себя сторонником «таблетки данных» (data pill) . Она убеждена, что именно качество данных и продуманность задач являются решающими факторами успеха. Айза Фулфорд согласна с этим, отмечая, что высокое качество Deep Research — результат тщательной курации данных .

Основным препятствием для создания по-настоящему надежных агентов исследователи считают отсутствие реалистичных сред для обучения с подкреплением (RL environments) .

Кристина Ким считает, что для обучения модели использованию компьютера нужно создавать сложные симуляции задач .
Айза Фулфорд отмечает, что хотя браузер и терминал позволяют выполнять почти любые задачи, модели нужно «видеть» тысячи примеров их использования, которых нет в открытом доступе .
Решением становится «бутстрэппинг» (bootstrapping): использование текущих хороших моделей для генерации данных для обучения следующих, ещё более совершенных систем .

🔄 Mid-training: промежуточное звено эволюции 31:47

Кристина Ким разъяснила понятие «mid-training» — этапа, который происходит после массивного пре-тренинга, но до финального пост-обучения .

Это позволяет расширить интеллект модели без запуска гигантских вычислительных кластеров с нуля .
Основная цель этого этапа — обновление базы знаний модели (knowledge cutoff), чтобы она знала о событиях, произошедших после завершения основного цикла обучения .

📈 Эволюция OpenAI: от 10 инженеров до мирового гиганта 36:43

Кристина Ким, работающая в компании 4 года, вспоминает, что в начале её пути команда прикладных разработок состояла всего из 10 инженеров . До запуска ChatGPT многие считали чат-ботов бесперспективным направлением. Ким рассказала, что поняла масштаб происходящего, когда её соседи по комнате (тоже ИИ-исследователи) начали использовать прототип ChatGPT буквально круглосуточно .

По мнению Кристины Ким, закон масштабирования (scaling laws), описанный в контексте GPT-3, стал для неё моментом истины: если эта экспонента верна, то в мире нет ничего более важного, на что стоило бы тратить жизнь .

Несмотря на рост штата с 200 человек до нескольких тысяч, внутри OpenAI сохраняется культура стартапа . Айза Фулфорд подчеркивает, что исследовательские команды остаются маленькими и гибкими: например, над проектом Deep Research изначально работало всего два человека .

🎨 «Вкус» исследователя как бритва Оккама 40:12

В OpenAI высоко ценится «вкус» (taste) исследователя. Кристина Ким полагает, что в мире, где стоимость производства контента и кода стремится к нулю, правильная интуиция и выбор направления становятся важнее, чем когда-либо .

Айза Фулфорд считает, что хороший вкус в исследованиях проявляется в упрощении:

Лучшее решение — это часто «самая глупая» или самая простая вещь, которую можно попробовать .
Сложность часто кроется в деталях гиперпараметров, но сама концепция должна быть прозрачной .
Исследователи сошлись во мнении, что в ретроспективе самые успешные релизы OpenAI всегда кажутся очевидными .