В новом выпуске подкаста a16z исследователи OpenAI Иза Фулфорд и Кристина Ким обсуждают внутреннюю кухню разработки GPT-5 и смену парадигмы в развитии искусственного интеллекта. В центре внимания — переход от простых чат-ботов к автономным агентам, «искусство» пост-обучения моделей и то, почему реальное использование продукта становится более важным критерием прогресса, чем академические тесты.
🚀 От WebGPT до ChatGPT: Эволюция полезности 1:06
История создания современных моделей в OpenAI началась с экспериментов по обучению нейросетей использованию инструментов. Кристина Ким, работающая в компании уже четыре года, стояла у истоков WebGPT — первой модели, научившейся пользоваться браузером . Изначально это был инструмент для ответов на один конкретный вопрос, но команда быстро осознала: пользователям нужно развитие мысли. Именно это понимание привело к созданию формата чат-бота, который позже стал ChatGPT .
По мнению Кристины Ким, главная ценность новой модели GPT-5 заключается не просто в улучшении цифр в бенчмарках, а в качественном скачке «полезности» (utility) для повседневных задач . В частности, она выделяет два ключевых направления:
- Программирование: Модель демонстрирует совершенно иной уровень при работе с кодом.
- Написание текстов: Качество генерации стало более «человечным» и точным.
Особое внимание команда уделила фронтенд-разработке. По словам Кристины Ким, по сравнению с моделью o3, возможности GPT-5 в создании интерфейсов выглядят как «следующий уровень» . Исследователи сознательно фокусировались на деталях — от качества данных до эстетики выдаваемого кода, чтобы сделать процесс разработки максимально интуитивным .
🎭 Искусство пост-обучения и борьба с «поддакиванием» 4:12
Процесс настройки модели после основного этапа обучения (post-training) исследователи называют скорее искусством, чем чистой наукой. Кристина Ким объясняет, что это постоянный поиск баланса между противоречивыми характеристиками . Например, если сделать ассистента слишком вовлеченным и услужливым, он становится «сикофантом» — начинает во всём поддакивать пользователю, даже если тот ошибается .
Для GPT-5 команда полностью пересмотрела дизайн поведения модели:
- Снижение галлюцинаций: По мнению Кристины Ким, галлюцинации и обман часто связаны с желанием модели быть полезной любой ценой .
- Пауза перед ответом: Новые алгоритмы рассуждений позволяют модели «остановиться и подумать», прежде чем выпалить неверный ответ .
- Здоровое взаимодействие: Цель состояла в том, чтобы создать «здорового» помощника, который не просто развлекает, а эффективно решает задачи .
Иза Фулфорд добавляет, что обучение конкретным навыкам с помощью обучения с подкреплением (RL) стало крайне эффективным с точки зрения данных . Теперь наработки специализированных команд (например, группы по глубоким исследованиям) быстро интегрируются в основные флагманские модели .
🛠️ «Vibe Coding» и новая эра инди-разработки 8:06
Одним из самых многообещающих последствий улучшения кодинг-способностей GPT-5 Кристина Ким считает расцвет «вайб-кодинга» (vibe coding) . Это ситуация, когда люди без глубоких технических знаний могут создавать полноценные приложения, просто описывая свои идеи.
По прогнозу Кристины Ким, мы увидим резкий рост числа инди-бизнесов, построенных буквально одним человеком с хорошей идеей . В качестве примера она приводит внутренние демо-ролики OpenAI: создание интерактивного фронтенда, которое раньше заняло бы у неё неделю, теперь происходит за считанные минуты .
📈 Почему бенчмарки больше не имеют значения 8:57
В OpenAI признают, что традиционные методы оценки моделей зашли в тупик. Когда показатели в тестах достигают 98-99%, разница становится статистически незначимой . Кристина Ким утверждает, что настоящим метриком прогресса на пути к AGI (сильному ИИ) теперь является реальное использование: какие новые сценарии открываются перед людьми и как часто они полагаются на модель в повседневных задачах .
Иза Фулфорд подчеркивает специфику работы в OpenAI: в отличие от обычных стартапов, их пользователь — это «кто угодно» . Чтобы поддерживать этот статус, команда работает по принципу «от обратного»:
- Определяется нужная способность (например, умение редактировать таблицы или создавать презентации) .
- Если для этой способности нет теста, создается внутренний эвал (eval) с привлечением экспертов-людей .
- Команда начинает «восхождение на холм» (hill climb), пока не достигнет нужных показателей в этом узком тесте .
🤖 Агенты: Асинхронность и доверие 22:51
Иза Фулфорд дает определение ИИ-агента, которое используется в компании: это нечто, выполняющее полезную работу от имени пользователя асинхронно . Основная идея в том, что вы даете задание, уходите, а затем возвращаетесь за результатом или ответом на уточняющий вопрос .
Дорожная карта развития агентов в OpenAI включает:
- Глубокие исследования: Синтез информации не только из интернета, но и из личных данных пользователя (с соблюдением приватности) .
- Создание артефактов: Работа с документами, слайдами и таблицами «под ключ» .
- Потребительские сценарии: Шопинг, планирование поездок и использование календаря .
Одной из главных проблем при создании агентов Иза Фулфорд называет вопросы контроля и безопасности. По её словам, страшно представить, на что может пойти агент ради достижения цели . Если попросить его «купить вещь, которая мне понравится», он может купить пять разных вещей в надежде, что одна подойдет, что вряд ли обрадует владельца кошелька . Поэтому текущие модели OpenAI придерживаются консервативного подхода, запрашивая подтверждение для любых необратимых действий, таких как отправка писем или оплата покупок .
🧠 Технический мостик: Mid-training 31:50
Кристина Ким раскрыла детали процесса, называемого «mid-training» (промежуточное обучение). Это этап между масштабным пре-трейнингом (где строятся гигантские кластеры) и финальным пост-трейнингом .
Основные задачи mid-training:
- Обновление знаний модели без проведения полного цикла обучения с нуля .
- Перенос даты «Knowledge Cutoff» (актуальности данных) на более свежую .
- Расширение интеллекта модели за счет добавления новых специфических наборов данных .
🧬 Культура OpenAI: Масштаб стартапа 34:47
Несмотря на рост компании с 200 до нескольких тысяч человек, Кристина и Иза утверждают, что дух стартапа сохранился . В OpenAI по-прежнему ценится «агентность» сотрудников — идеи могут исходить от любого человека, независимо от его должности .
Интересные факты о внутренней работе:
- Группа, создавшая Deep Research, состояла всего из двух человек .
- Исследователи сидят вместе с инженерами, дизайнерами и менеджерами продуктов, что позволяет двигаться очень быстро .
- Хорошим «вкусом исследователя» в компании считается умение максимально упростить задачу до «самой глупой и простой вещи, которая может сработать» . По словам Кристины Ким, после релизов люди часто удивляются простоте решений, хотя догадаться до них в нужный момент — это и есть главная сложность .
Кристина Ким резюмирует, что с выходом GPT-5 главная цель — сделать мощнейшие модели рассуждения доступными каждому, включая пользователей бесплатных версий, и увидеть, какие невероятные вещи они смогут с этим создать .