Марк Чен и Якуб Пахоцкий раскрыли долгосрочную стратегию OpenAI

В новом выпуске подкаста венчурного фонда a16z руководители исследовательского направления OpenAI Марк Чен и Якуб Пахоцкий обсудили долгосрочную стратегию компании, запуск модели GPT-5 и новейшей версии GPT-5 Codex. Ключевой темой беседы стал масштабный технологический сдвиг: переход от концепции «интуитивного программирования» (vibe coding) к «интуитивным исследованиям» (vibe researching), глобальной целью которых является создание полностью автономного ИИ-исследователя. Спикеры подробно описали внутреннюю культуру OpenAI, принципы распределения вычислительных ресурсов, новые подходы к обучению с подкреплением и философию управления талантами, которая позволяет компании удерживать лидерство в индустрии.

🧠 Эпоха рассуждений: запуск GPT-5 и новая парадигма ИИ 1:05

Выпуск новой флагманской модели GPT-5 стал для OpenAI важнейшей вехой, ознаменовавшей вывод продвинутых ИИ-рассуждений (reasoning) в мейнстрим. До этого момента в линейке продуктов компании существовало четкое разделение на два разных семейства моделей. С одной стороны, серия GPT-2, GPT-3 и GPT-4 представляла собой системы мгновенного отклика, выдававшие ответ моментально. С другой стороны, существовала специализированная серия моделей «o» (например, o3), которые могли «думать» в течение длительного времени, прежде чем предложить пользователю наиболее выверенное решение.

Тактически, как объясняет Chief Research Officer OpenAI Марк Чен, команда стремилась избавить пользователей от дилеммы, какой именно режим работы выбрать для конкретной задачи. Исследователям пришлось проделать колоссальную работу, чтобы научить модель самостоятельно определять оптимальное время и глубину «размышлений» для каждого входящего промта.

По мнению руководства OpenAI, будущее ИИ неразрывно связано с развитием когнитивных способностей и агентного поведения по умолчанию, и GPT-5 стала решающим шагом в этом направлении. Модель получила масштабный комплекс улучшений по сравнению со своей предшественницей o3, однако её главной миссией Марк Чен называет именно демократизацию режима глубоких рассуждений, который теперь стал доступен широкому кругу пользователей.

📊 Кризис метрик и переход к обучению с подкреплением (RL) 2:24

С развитием интеллектуальных способностей ИИ разработчики столкнулись с неочевидной проблемой: традиционные бенчмарки и системы оценки (evals), использовавшиеся последние несколько лет, практически полностью себя исчерпали. Когда показатели модели на стандартных тестах вплотную приближаются к абсолюту, движение от 96% до 98% или 99% перестает быть главным индикатором реального прогресса.

Якуб Пахоцкий, занимающий пост Chief Scientist в OpenAI, отмечает фундаментальное различие между эпохами. Во времена GPT-2, GPT-3 и GPT-4 формула успеха была единой: модель предварительно обучали (pre-training) на гигантских массивах данных, а стандартные тесты служили простой линейкой для измерения того, как ИИ обобщает знания на различные задачи. В новой реальности OpenAI делает ставку на принципиально иные методы — обучение с подкреплением (Reinforcement Learning, RL) для решения сложных логических задач.

Новый подход позволяет выбрать конкретную прикладную область и целенаправленно обучать модель глубоким рассуждениям, превращая её в узкопрофильного эксперта. Обратной стороной медали становится то, что феноменальные результаты на специализированных тестах больше не гарантируют автоматического улучшения общих когнитивных навыков модели в других сферах.

Как признает Якуб Пахоцкий, сейчас индустрия переживает явный «дефицит качественных систем оценки». OpenAI ищет новые маркеры прогресса, и в этом году наиболее надежными ориентирами стали успехи моделей на международных соревнованиях по математике (IMO) и спортивному программированию. В частности, модель OpenAI уже заняла второе место на платформе AtCoder. По мнению спикеров, победы в таких состязаниях — это не просто спортивный интерес, а реальные индикаторы того, что в будущем ИИ сможет совершать полноценные научные открытия.

🔬 Практическая польза и «момент озарения» в точных науках 5:02

В процессе внутреннего тестирования GPT-5 разработчиков больше всего удивило то, насколько сильно модель раздвинула границы возможного в точных и сложных науках (hard sciences). OpenAI активно привлекала к тестированию своих друзей и коллег — профессиональных физиков и математиков. Результаты, которыми ученые уже начали делиться в социальных сетях, доказывают: ИИ способен самостоятельно совершать нетривиальные математические открытия.

Марк Чен описывает реакцию академического сообщества как настоящий «момент озарения» (lightbulb moment). Физики и математики раз за разом запускали сложные теоретические задачи и признавали, что предыдущие поколения ИИ были на такое не способны. По оценкам спикеров, сегодня модель способна в автоматическом режиме выполнить исследовательскую работу, на которую у студента магистратуры или аспиранта ушли бы месяцы упорного труда.

Если для Марка Чена переломным моментом стала именно GPT-5, то Якуб Пахоцкий считает, что настоящая революция в ежедневной работе исследователей началась чуть раньше — с модели o3. По его словам, именно o3 доказала, что ИИ можно полностью доверять при выводе сложных математических формул и дериваций. Впрочем, текущие успехи моделей в решении олимпиадных задач на длинных временных горизонтах — это лишь скромное превью того, что OpenAI планирует показать в течение ближайшего года.

🚀 Дорожная карта на 1–5 лет: курс на автономного исследователя 7:01

Глобальная цель исследовательской программы OpenAI сформулирована максимально амбициозно: создание «автоматизированного исследователя» (automated researcher). Компания стремится полностью автоматизировать процесс генерации и верификации новых научных идей. В первую очередь разработчики тестируют эту концепцию на собственной шкуре, пытаясь автоматизировать исследования в области машинного обучения (ML research), хотя и признают некоторую самореферентность такого подхода. Параллельно ведутся работы по автоматизации прогресса в других фундаментальных научных дисциплинах.

Главной метрикой прогресса на этом пути становится временной горизонт автономной работы ИИ. На сегодняшний день модели OpenAI практически полностью освоили уровень школьных олимпиад, что эквивалентно способности непрерывно рассуждать и планировать в диапазоне от 1 до 5 часов. Текущий фокус исследовательских команд направлен на расширение этого горизонта. Для этого необходимо решить две фундаментальные технологические задачи:

Развить способность модели осуществлять стратегическое планирование на сверхдлинных дистанциях.
Кратно улучшить механизмы удержания и работы с долгосрочной памятью.

В связи с этим в ИИ-сообществе активно обсуждается дилемма агентного подхода: пользователи замечают, что когда модель совершает слишком много автономных шагов, использует сторонние инструменты и строит многоуровневые цепочки планирования, общая стабильность и качество системы могут регрессировать по сравнению с моделями, выполняющими одну простую задачу.

Якуб Пахоцкий утверждает, что способность поддерживать глубину рассуждений и оставаться последовательным на длинной дистанции — это по сути две стороны одной медали. Модели рассуждения от OpenAI уже доказали свою способность значительно увеличивать длину логических цепочек и работать надежно, не сбиваясь с курса. Марк Чен добавляет, что именно когнитивная функция рассуждения является ключом к долгой автономности: ИИ должен уметь действовать как человек — пробовать метод, совершать ошибку, анализировать негативный фидбек от среды, корректировать гипотезу и пробовать снова. По мнению спикеров, этот цикл самокоррекции применим даже в абстрактных, трудноверифицируемых областях знаний, где нет однозначного ответа «правильно или неправильно».

🧪 Магия RL: почему обучение с подкреплением продолжает удивлять 12:20

Каждые несколько месяцев, когда OpenAI выпускает очередное обновление, скептики из ИИ-индустрии предрекают неизбежное плато для методов обучения с подкреплением (RL). Эксперты заявляют о скором насыщении тестов, неспособности моделей к генерализации и угрозе коллапса моды (mode collapse) из-за избытка синтетических данных. Тем не менее, вопреки прогнозам, RL продолжает приносить компании стабильные технологические прорывы.

Якуб Пахоцкий объясняет этот феномен универсальностью самого метода. Исторически OpenAI начинала заниматься обучением с подкреплением задолго до бума больших языковых моделей (LLM) — команда тренировала ИИ в робототехнике и видеоиграх вроде Dota 2. Главной проблемой тех лет было отсутствие адекватной среды: исследователи пытались симулировать виртуальные острова, где агенты учились бы конкурировать и сотрудничать.

Все изменилось с прорывом в области языкового моделирования. Масштабирование глубокого обучения на естественном языке создало невероятно богатую, нюансированную среду. Объединение парадигмы языковых моделей и классического RL позволило запустить алгоритмы обучения в текстовой среде, уже содержащей в себе колоссальный объем человеческих знаний. По признанию Якуба, последние несколько лет стали самым захватывающим периодом в истории исследований OpenAI благодаря синергии этих двух подходов.

Что касается коммерческих компаний и ученых-практиков (биологов, физиков), которые хотят использовать эти технологии, но не знают, как подступиться к созданию правильной модели вознаграждения (reward model), руководство OpenAI советует сохранять гибкость. Пахоцкий прогнозирует, что этот процесс будет быстро эволюционировать и становиться проще. Еще два года назад индустрия спорила о правильной разметке датасетов для тонкой настройки (fine-tuning), а сегодня акценты смещаются в сторону моделирования обучения, максимально похожего на человеческое. Главный совет от топ-менеджеров OpenAI — не застревать в текущих паттернах и помнить, что сегодняшние сложные методологии завтра станут рудиментами.

💻 От Vibe Coding к Vibe Researching: релиз GPT-5 Codex 15:55

В день записи подкаста OpenAI официально выпустила модель GPT-5 Codex. По словам Марка Чена, ключевая задача команды Codex заключалась в том, чтобы взять «сырой» интеллект базовой модели рассуждений и адаптировать его под грязную, хаотичную реальность промышленной разработки ПО. Настоящее программирование сильно отличается от стерильных академических тестов: оно наполнено нюансами стилей, корпоративными спецификациями и требует от ИИ высокого уровня проактивности.

Разработчики внедрили в GPT-5 Codex систему гибких пресетов по задержке (latency presets). Исследования OpenAI показали, что прошлые поколения моделей вели себя нерационально: они тратили слишком много времени на тривиальные задачи и катастрофически мало — на глубокий анализ сложных архитектурных проблем. Теперь для простых задач модель выдает мгновенный ответ с минимальным пингом, а для тяжелых архитектурных вызовов осознанно берет длительную паузу, чтобы рассчитать оптимальное решение.

Сдвиг в возможностях ИИ кардинально меняет привычки даже самих создателей технологии. И Якуб Пахоцкий, и Марк Чен в прошлом были профессиональными спортивными программистами. Якуб признается, что исторически был жутким ретроградом: не признавал современные инструменты автоматизации и кодил исключительно в текстовом редакторе Vim. Однако возможности GPT-5 заставили его изменить принципам. По его словам:

«Когда ИИ способен безупречно провести рефакторинг тридцати файлов проекта всего за 15 минут — цепляться за старые методы становится просто глупо. Приходится учиться программировать по-новому».

Тем не менее, Пахоцкий отмечает, что технология все еще находится в своеобразной «зловещей долине» (uncanny valley): инструмент невероятно ускоряет процессы, но пока не дотягивает до уровня полноценного живого коллеги-разработчика. Избавление от этого эффекта — главный приоритет OpenAI.

Марк Чен, вспоминая победу AlphaGo над Ли Седолем как главный источник своего личного вдохновения в ИИ, поражается скорости прогресса: всего за год модели прошли путь от решения математики за 8 класс до доминирования на хакерских соревнованиях. Чен поделился историей о том, как на выходных общался со старшеклассниками. Современные подростки заявили ему, что для них дефолтным методом разработки ПО стал vibe coding («интуитивное программирование», когда человек лишь набрасывает концепт и управляет процессом, а код пишет ИИ). Писать код с нуля вручную кажется новому поколению странным и неэффективным анахронизмом. Марк Чен выразил надежду, что в ближайшие годы аналогичный сдвиг произойдет и в науке, породив эпоху vibe researching.

🤝 Что делает исследователя великим: баланс убеждённости и поиска истины 21:44

В контексте перехода к «интуитивным исследованиям» ведущие поинтересовались, какими качествами должен обладать выдающийся ученый в эпоху ИИ. По мнению Якуба Пахоцкого, главным качеством остается высокая психологическая стойкость и упорство (persistence). Специфика настоящей науки в том, что исследователь пытается создать или узнать то, что до него не было известно никому в мире. Это значит, что абсолютное большинство экспериментов обречено на провал.

Ученый нового поколения должен быть ментально готов к постоянным неудачам и уметь извлекать из них уроки. Для этого требуется жесткая честность перед самим собой при формулировании и проверке гипотез. Пахоцкий предостерегает от опасной ловушки, в которую попадают многие исследователи: они подсознательно пытаются во что бы то ни стало доказать работоспособность своей идеи вместо того, чтобы объективно искать истину. Настоящая вера в свой проект должна сочетаться с готовностью признать, что текущий метод не работает.

Марк Чен добавляет, что в этой профессии нет коротких путей, заменяющих реальный опыт. Опыт необходим для калибровки масштаба задач: нельзя выбирать слишком простые темы (это не приносит удовлетворения), но и браться за абсолютно неподъемные тоже деструктивно. Исследование — это во многом менеджмент собственных эмоций на длинной дистанции.

При этом Якуб Пахоцкий подчеркивает, что между слепой убежденностью в правоте и абсолютным поиском истины (truth-seeking) нет неразрешимого конфликта. Самые выдающиеся ученые всегда шли атаковать фундаментальные, общеизвестные проблемы, которые в научном сообществе считались нерешаемыми (intractable). Они просто задавали вопрос: «А почему именно этот подход провалился? Что является истинным барьером для следующего шага?».

В качестве примера из внутренней кухни OpenAI спикеры вспомнили процесс обучения GPT-5. На пути к созданию моделей рассуждения главным врагом прогресса становятся скрытые баги. Речь идет как о банальных ошибках в кодовой базе, которые могут месяцами искажать результаты экспериментов незаметно для команды, так и о концептуальных «багах мышления». Самые значимые прорывы OpenAI происходили тогда, когда исследователи находили в себе силы полностью пересмотреть свои базовые, казавшиеся незыблемыми допущения и пересобрать архитектуру с нуля.

🛡️ Защита фундаментальной науки в коммерческой компании 27:12

В условиях жесточайшей «войны за таланты» в Кремниевой долине руководству OpenAI удается сохранять костяк команды исследователей и обеспечивать высокую организационную устойчивость. Марк Чен считает, что главное преимущество компании — это её фокус на фундаментальной науке. OpenAI сознательно отказывается от бенчмаркинга конкурентов: команда никогда не оглядывается по сторонам с мыслями в духе «а какую модель построила компания X или компания Y?». У OpenAI есть свой четкий и ясный вектор развития.

Компания выстроила жесткую культурную границу, защищающую фундаментальные исследования от давления со стороны продуктовых подразделений. В условиях колоссального медийного внимания и рыночной гонки легко впасть в панику и начать судорожно выпускать итеративные обновления, чтобы перебить инфоповод конкурентов. Руководители OpenAI видят свою ключевую задачу в том, чтобы дать ученым психологический комфорт, безопасность и пространство для размышлений о том, какими технологии станут через два года, а не через две недели.

При найме новых сотрудников OpenAI использует неочевидные критерии. Они целенаправленно ищут так называемых «обитателей пещер» (cave dwellers) — талантливых инженеров и ученых, которые не занимаются самопиаром в соцсетях и не публикуют бесконечные статьи, а сосредоточены на реальной работе. Более того, многие из самых успешных исследователей компании пришли в ИИ из совершенно сторонних областей: теоретической физики, классической компьютерной науки и даже глубоких финансов. Главное, что ищет OpenAI, — это опыт решения сверхсложных фундаментальных задач в любой сфере и сильная математическая база.

Комментируя недавнее заявление Илона Маска о том, что разделение на «исследователей» и «инженеров» в ИИ является надуманным, Марк Чен не согласился с такой категоричностью. Он отметил, что исследователи бывают разных типов. Одни генерируют колоссальную ценность исключительно на этапе создания прорывных концепций и идей, не прикасаясь к коду. Другие, напротив, демонстрируют невероятную эффективность в проведении тысяч скрупулезных, жестко структурированных экспериментов вокруг одной идеи. Первая категория ученых никак не вписывается в классическое определение «великого инженера», но жизненно необходима для научных прорывов, поэтому OpenAI сознательно поддерживает разнообразие исследовательских стилей.

⚙️ Compute is Destiny: управление ресурсами и портфелем идей 34:21

Внутри OpenAI одновременно сосуществует множество порой конкурирующих технологических ставок: от диффузионных моделей генерации медиаконтента до логических моделей рассуждения. Удерживать эту экосистему в рамках единой дорожной карты помогает жесткая привязка всех проектов к долгосрочной миссии создания автоматизированного исследователя. Это оставляет пространство для низовой инициативы (bottom-up), но гарантирует, что в конечном итоге все технологии соединятся.

Примером сложного выбора Марк Чен называет появление на рынке сильных медиа-моделей от конкурентов (например, Nano Banana от Google), которые мгновенно завоевывают популярность у массового пользователя. В такие моменты внутри команды неизбежно возникает дискуссия: не стоит ли перебросить ресурсы на создание аналогичных развлекательных или креативных продуктов?. Стратегия OpenAI в данном вопросе непреклонна: компания не запрещает сотрудникам развивать агентные или медийные направления, но жестко приоритизирует ресурсы в пользу фундаментальных алгоритмических достижений.

В вопросах ресурсного менеджмента (compute allocation) руководство OpenAI руководствуется принципом гибкости, пересматривая квоты на вычислительные мощности буквально каждый месяц. Отвечая на вопрос, куда бы они направили гипотетические дополнительные 10% marginal ресурсов — на покупку датасетов, наем людей или железо — оба спикера единогласно выбрали вычислительные мощности (compute). Марк Чен подчеркнул:

«Опасность заключается в том, что пытаясь преуспеть во всем сразу, в условиях дефицита вычислительных мощностей вы рискуете занять вторые места во всех категориях, потеряв абсолютное лидерство».

Якуб Пахоцкий также выразил скепсис по поводу популярного в Долине мнения, будто ИИ-индустрия вскоре упрется в дефицит данных (data-constrained regime). По его мнению, вычислительные мощности остаются главным определяющим фактором развития технологий. При этом, рассуждая о долгосрочных константах на ближайшие 10 лет, спикеры отметили, что на смену ограничениям со стороны софта приходят жесткие физические лимиты реального мира: доступность электроэнергии для дата-центров и прогресс в робототехнике, которая станет следующим ключевым фокусом ИИ-индустрии.

📈 Феномен вечного обучения и история доверия 46:54

Завершая беседу, руководители исследовательского блока OpenAI поделились секретом того, как компании удается сохранять скорость и дух стартапа, несмотря на миллиардные доходы и огромный штат. Марк Чен отметил, что в большинстве крупных корпораций сотрудники рано или поздно упираются в «плато обучения»: за пару лет человек осваивает фреймворки и начинает работать на автопилоте. В OpenAI этого феномена нет: плотность научных результатов и скорость смены парадигм настолько высоки, что оставаться в курсе всех внутренних открытий — это полноценная работа на полную ставку, приносящая колоссальное интеллектуальное удовлетворение.

Немаловажным фактором стабильности компании является уникальный уровень личного взаимного доверия между Ченом и Пахоцким, который в прессе часто называют «главной константой OpenAI». Спикеры с улыбкой вспомнили историю своих взаимоотношений. Их тесное сотрудничество началось несколько лет назад с формирования первых небольших рабочих групп по направлению ИИ-рассуждений. В то время эта тема была крайне непопулярна в академической среде, и мало кто верил в успех направления.

Проходя через череду тяжелых технологических кризисов, они смогли развить и масштабировать это направление. Якуб Пахоцкий охарактеризовал Марка Чена как уникального лидера, способного превратить хаотичный и мешанинный набор исследовательских векторов в стройную, органичную структуру, где люди искренне вдохновлены общей миссией. Марк Чен, в свою очередь, назвал Якуба Пахоцкого «исследователем номер один в мире», способным в одиночку закрыться в кабинете на две недели со сложнейшим математическим или архитектурным вызовом и вернуться с безупречным решением. Этот союз академической глубины и организационного таланта, по мнению авторов подкаста, продолжает оставаться главным двигателем прогресса на пути к созданию сверхразумного ИИ.