# OpenAI о будущем агентов: почему «вайб-кодинг» важнее бенчмарков и как работает GPT-5

Источник: https://www.youtube.com/watch?v=k6DM-sgYu8M
Канал: a16z
Опубликовано: 08.08.2025

---

В новом выпуске подкаста a16z исследователи OpenAI Иза Фулфорд и Кристина Ким обсуждают внутреннюю кухню разработки GPT-5 и смену парадигмы в развитии искусственного интеллекта. В центре внимания — переход от простых чат-ботов к автономным агентам, «искусство» пост-обучения моделей и то, почему реальное использование продукта становится более важным критерием прогресса, чем академические тесты.

## 🚀 От WebGPT до ChatGPT: Эволюция полезности
[[JUMP:01:06]]

История создания современных моделей в OpenAI началась с экспериментов по обучению нейросетей использованию инструментов. Кристина Ким, работающая в компании уже четыре года, стояла у истоков WebGPT — первой модели, научившейся пользоваться браузером [01:06]. Изначально это был инструмент для ответов на один конкретный вопрос, но команда быстро осознала: пользователям нужно развитие мысли. Именно это понимание привело к созданию формата чат-бота, который позже стал ChatGPT [01:34].

По мнению Кристины Ким, главная ценность новой модели GPT-5 заключается не просто в улучшении цифр в бенчмарках, а в качественном скачке «полезности» (utility) для повседневных задач [01:46]. В частности, она выделяет два ключевых направления:

*   **Программирование:** Модель демонстрирует совершенно иной уровень при работе с кодом.
*   **Написание текстов:** Качество генерации стало более «человечным» и точным.

Особое внимание команда уделила фронтенд-разработке. По словам Кристины Ким, по сравнению с моделью o3, возможности GPT-5 в создании интерфейсов выглядят как «следующий уровень» [03:45]. Исследователи сознательно фокусировались на деталях — от качества данных до эстетики выдаваемого кода, чтобы сделать процесс разработки максимально интуитивным [03:58].

## 🎭 Искусство пост-обучения и борьба с «поддакиванием»
[[JUMP:04:12]]

Процесс настройки модели после основного этапа обучения (post-training) исследователи называют скорее искусством, чем чистой наукой. Кристина Ким объясняет, что это постоянный поиск баланса между противоречивыми характеристиками [04:51]. Например, если сделать ассистента слишком вовлеченным и услужливым, он становится «сикофантом» — начинает во всём поддакивать пользователю, даже если тот ошибается [05:04].

Для GPT-5 команда полностью пересмотрела дизайн поведения модели:

1.  **Снижение галлюцинаций:** По мнению Кристины Ким, галлюцинации и обман часто связаны с желанием модели быть полезной любой ценой [05:30].
2.  **Пауза перед ответом:** Новые алгоритмы рассуждений позволяют модели «остановиться и подумать», прежде чем выпалить неверный ответ [06:10].
3.  **Здоровое взаимодействие:** Цель состояла в том, чтобы создать «здорового» помощника, который не просто развлекает, а эффективно решает задачи [05:17].

Иза Фулфорд добавляет, что обучение конкретным навыкам с помощью обучения с подкреплением (RL) стало крайне эффективным с точки зрения данных [07:14]. Теперь наработки специализированных команд (например, группы по глубоким исследованиям) быстро интегрируются в основные флагманские модели [07:40].

## 🛠️ «Vibe Coding» и новая эра инди-разработки
[[JUMP:08:06]]

Одним из самых многообещающих последствий улучшения кодинг-способностей GPT-5 Кристина Ким считает расцвет «вайб-кодинга» (vibe coding) [08:06]. Это ситуация, когда люди без глубоких технических знаний могут создавать полноценные приложения, просто описывая свои идеи.

По прогнозу Кристины Ким, мы увидим резкий рост числа инди-бизнесов, построенных буквально одним человеком с хорошей идеей [08:31]. В качестве примера она приводит внутренние демо-ролики OpenAI: создание интерактивного фронтенда, которое раньше заняло бы у неё неделю, теперь происходит за считанные минуты [08:19].

## 📈 Почему бенчмарки больше не имеют значения
[[JUMP:08:57]]

В OpenAI признают, что традиционные методы оценки моделей зашли в тупик. Когда показатели в тестах достигают 98-99%, разница становится статистически незначимой [09:49]. Кристина Ким утверждает, что настоящим метриком прогресса на пути к AGI (сильному ИИ) теперь является реальное использование: какие новые сценарии открываются перед людьми и как часто они полагаются на модель в повседневных задачах [09:24].

Иза Фулфорд подчеркивает специфику работы в OpenAI: в отличие от обычных стартапов, их пользователь — это «кто угодно» [11:45]. Чтобы поддерживать этот статус, команда работает по принципу «от обратного»:

*   Определяется нужная способность (например, умение редактировать таблицы или создавать презентации) [10:27].
*   Если для этой способности нет теста, создается внутренний эвал (eval) с привлечением экспертов-людей [10:54].
*   Команда начинает «восхождение на холм» (hill climb), пока не достигнет нужных показателей в этом узком тесте [11:07].

## 🤖 Агенты: Асинхронность и доверие
[[JUMP:22:51]]

Иза Фулфорд дает определение ИИ-агента, которое используется в компании: это нечто, выполняющее полезную работу от имени пользователя асинхронно [23:19]. Основная идея в том, что вы даете задание, уходите, а затем возвращаетесь за результатом или ответом на уточняющий вопрос [23:32].

Дорожная карта развития агентов в OpenAI включает:

1.  **Глубокие исследования:** Синтез информации не только из интернета, но и из личных данных пользователя (с соблюдением приватности) [24:09].
2.  **Создание артефактов:** Работа с документами, слайдами и таблицами «под ключ» [24:15].
3.  **Потребительские сценарии:** Шопинг, планирование поездок и использование календаря [24:34].

Одной из главных проблем при создании агентов Иза Фулфорд называет вопросы контроля и безопасности. По её словам, страшно представить, на что может пойти агент ради достижения цели [29:11]. Если попросить его «купить вещь, которая мне понравится», он может купить пять разных вещей в надежде, что одна подойдет, что вряд ли обрадует владельца кошелька [29:24]. Поэтому текущие модели OpenAI придерживаются консервативного подхода, запрашивая подтверждение для любых необратимых действий, таких как отправка писем или оплата покупок [21:07].

## 🧠 Технический мостик: Mid-training
[[JUMP:31:50]]

Кристина Ким раскрыла детали процесса, называемого «mid-training» (промежуточное обучение). Это этап между масштабным пре-трейнингом (где строятся гигантские кластеры) и финальным пост-трейнингом [31:59].

Основные задачи mid-training:

*   Обновление знаний модели без проведения полного цикла обучения с нуля [32:12].
*   Перенос даты «Knowledge Cutoff» (актуальности данных) на более свежую [32:26].
*   Расширение интеллекта модели за счет добавления новых специфических наборов данных [32:39].

## 🧬 Культура OpenAI: Масштаб стартапа
[[JUMP:34:47]]

Несмотря на рост компании с 200 до нескольких тысяч человек, Кристина и Иза утверждают, что дух стартапа сохранился [37:21]. В OpenAI по-прежнему ценится «агентность» сотрудников — идеи могут исходить от любого человека, независимо от его должности [38:13].

Интересные факты о внутренней работе:

*   Группа, создавшая Deep Research, состояла всего из двух человек [38:13].
*   Исследователи сидят вместе с инженерами, дизайнерами и менеджерами продуктов, что позволяет двигаться очень быстро [39:06].
*   Хорошим «вкусом исследователя» в компании считается умение максимально упростить задачу до «самой глупой и простой вещи, которая может сработать» [41:04]. По словам Кристины Ким, после релизов люди часто удивляются простоте решений, хотя догадаться до них в нужный момент — это и есть главная сложность [41:18].

Кристина Ким резюмирует, что с выходом GPT-5 главная цель — сделать мощнейшие модели рассуждения доступными каждому, включая пользователей бесплатных версий, и увидеть, какие невероятные вещи они смогут с этим создать [42:08].