OpenAI о будущем агентов: почему «вайб-кодинг» важнее бенчмарков и как работает GPT-5

В новом выпуске подкаста a16z исследователи OpenAI Иза Фулфорд и Кристина Ким обсуждают внутреннюю кухню разработки GPT-5 и смену парадигмы в развитии искусственного интеллекта. В центре внимания — переход от простых чат-ботов к автономным агентам, «искусство» пост-обучения моделей и то, почему реальное использование продукта становится более важным критерием прогресса, чем академические тесты.

🚀 От WebGPT до ChatGPT: Эволюция полезности 1:06

История создания современных моделей в OpenAI началась с экспериментов по обучению нейросетей использованию инструментов. Кристина Ким, работающая в компании уже четыре года, стояла у истоков WebGPT — первой модели, научившейся пользоваться браузером . Изначально это был инструмент для ответов на один конкретный вопрос, но команда быстро осознала: пользователям нужно развитие мысли. Именно это понимание привело к созданию формата чат-бота, который позже стал ChatGPT .

По мнению Кристины Ким, главная ценность новой модели GPT-5 заключается не просто в улучшении цифр в бенчмарках, а в качественном скачке «полезности» (utility) для повседневных задач . В частности, она выделяет два ключевых направления:

Программирование: Модель демонстрирует совершенно иной уровень при работе с кодом.
Написание текстов: Качество генерации стало более «человечным» и точным.

Особое внимание команда уделила фронтенд-разработке. По словам Кристины Ким, по сравнению с моделью o3, возможности GPT-5 в создании интерфейсов выглядят как «следующий уровень» . Исследователи сознательно фокусировались на деталях — от качества данных до эстетики выдаваемого кода, чтобы сделать процесс разработки максимально интуитивным .

🎭 Искусство пост-обучения и борьба с «поддакиванием» 4:12

Процесс настройки модели после основного этапа обучения (post-training) исследователи называют скорее искусством, чем чистой наукой. Кристина Ким объясняет, что это постоянный поиск баланса между противоречивыми характеристиками . Например, если сделать ассистента слишком вовлеченным и услужливым, он становится «сикофантом» — начинает во всём поддакивать пользователю, даже если тот ошибается .

Для GPT-5 команда полностью пересмотрела дизайн поведения модели:

Снижение галлюцинаций: По мнению Кристины Ким, галлюцинации и обман часто связаны с желанием модели быть полезной любой ценой .
Пауза перед ответом: Новые алгоритмы рассуждений позволяют модели «остановиться и подумать», прежде чем выпалить неверный ответ .
Здоровое взаимодействие: Цель состояла в том, чтобы создать «здорового» помощника, который не просто развлекает, а эффективно решает задачи .

Иза Фулфорд добавляет, что обучение конкретным навыкам с помощью обучения с подкреплением (RL) стало крайне эффективным с точки зрения данных . Теперь наработки специализированных команд (например, группы по глубоким исследованиям) быстро интегрируются в основные флагманские модели .

🛠️ «Vibe Coding» и новая эра инди-разработки 8:06

Одним из самых многообещающих последствий улучшения кодинг-способностей GPT-5 Кристина Ким считает расцвет «вайб-кодинга» (vibe coding) . Это ситуация, когда люди без глубоких технических знаний могут создавать полноценные приложения, просто описывая свои идеи.

По прогнозу Кристины Ким, мы увидим резкий рост числа инди-бизнесов, построенных буквально одним человеком с хорошей идеей . В качестве примера она приводит внутренние демо-ролики OpenAI: создание интерактивного фронтенда, которое раньше заняло бы у неё неделю, теперь происходит за считанные минуты .

📈 Почему бенчмарки больше не имеют значения 8:57

В OpenAI признают, что традиционные методы оценки моделей зашли в тупик. Когда показатели в тестах достигают 98-99%, разница становится статистически незначимой . Кристина Ким утверждает, что настоящим метриком прогресса на пути к AGI (сильному ИИ) теперь является реальное использование: какие новые сценарии открываются перед людьми и как часто они полагаются на модель в повседневных задачах .

Иза Фулфорд подчеркивает специфику работы в OpenAI: в отличие от обычных стартапов, их пользователь — это «кто угодно» . Чтобы поддерживать этот статус, команда работает по принципу «от обратного»:

Определяется нужная способность (например, умение редактировать таблицы или создавать презентации) .
Если для этой способности нет теста, создается внутренний эвал (eval) с привлечением экспертов-людей .
Команда начинает «восхождение на холм» (hill climb), пока не достигнет нужных показателей в этом узком тесте .

🤖 Агенты: Асинхронность и доверие 22:51

Иза Фулфорд дает определение ИИ-агента, которое используется в компании: это нечто, выполняющее полезную работу от имени пользователя асинхронно . Основная идея в том, что вы даете задание, уходите, а затем возвращаетесь за результатом или ответом на уточняющий вопрос .

Дорожная карта развития агентов в OpenAI включает:

Глубокие исследования: Синтез информации не только из интернета, но и из личных данных пользователя (с соблюдением приватности) .
Создание артефактов: Работа с документами, слайдами и таблицами «под ключ» .
Потребительские сценарии: Шопинг, планирование поездок и использование календаря .

Одной из главных проблем при создании агентов Иза Фулфорд называет вопросы контроля и безопасности. По её словам, страшно представить, на что может пойти агент ради достижения цели . Если попросить его «купить вещь, которая мне понравится», он может купить пять разных вещей в надежде, что одна подойдет, что вряд ли обрадует владельца кошелька . Поэтому текущие модели OpenAI придерживаются консервативного подхода, запрашивая подтверждение для любых необратимых действий, таких как отправка писем или оплата покупок .

🧠 Технический мостик: Mid-training 31:50

Кристина Ким раскрыла детали процесса, называемого «mid-training» (промежуточное обучение). Это этап между масштабным пре-трейнингом (где строятся гигантские кластеры) и финальным пост-трейнингом .

Основные задачи mid-training:

Обновление знаний модели без проведения полного цикла обучения с нуля .
Перенос даты «Knowledge Cutoff» (актуальности данных) на более свежую .
Расширение интеллекта модели за счет добавления новых специфических наборов данных .

🧬 Культура OpenAI: Масштаб стартапа 34:47

Несмотря на рост компании с 200 до нескольких тысяч человек, Кристина и Иза утверждают, что дух стартапа сохранился . В OpenAI по-прежнему ценится «агентность» сотрудников — идеи могут исходить от любого человека, независимо от его должности .

Интересные факты о внутренней работе:

Группа, создавшая Deep Research, состояла всего из двух человек .
Исследователи сидят вместе с инженерами, дизайнерами и менеджерами продуктов, что позволяет двигаться очень быстро .
Хорошим «вкусом исследователя» в компании считается умение максимально упростить задачу до «самой глупой и простой вещи, которая может сработать» . По словам Кристины Ким, после релизов люди часто удивляются простоте решений, хотя догадаться до них в нужный момент — это и есть главная сложность .

Кристина Ким резюмирует, что с выходом GPT-5 главная цель — сделать мощнейшие модели рассуждения доступными каждому, включая пользователей бесплатных версий, и увидеть, какие невероятные вещи они смогут с этим создать .