# OpenAI представила o3: от чат-ботов к автономным научным системам

Источник: https://www.youtube.com/watch?v=N9bj9dXdgGs
Канал: Wes Roth
Опубликовано: 16.04.2025

---

Компания OpenAI представила новое поколение моделей o3 и o4-mini, которые разработчики классифицируют уже не просто как языковые модели, а как полноценные «ИИ-системы» (AI systems). В ходе презентации, которую проанализировал автор канала Wes Roth, руководители и исследователи OpenAI продемонстрировали, как новые алгоритмы справляются с задачами уровня докторов наук, самостоятельно проводят научные изыскания и исправляют ошибки в реальных программных кодах.

## 🤖 От моделей к системам: запуск o3 и o4-mini
[[JUMP:00:00]]

OpenAI объявила о существенном обновлении своей линейки: модель o3 приходит на смену o1, а o4-mini заменяет o3-mini [00:00]. По словам сооснователя компании Грега Брокмана и директора по исследованиям Марка Чэня, это качественный скачок, сопоставимый с выходом GPT-4 [00:41]. Основное отличие новых версий заключается в том, что они спроектированы как системы, способные активно использовать инструменты в процессе «цепочки рассуждений» (Chain of Thought).

Ключевые особенности новых систем:

*   **Использование инструментов:** Модели могут обращаться к калькулятору, поиску в интернете или интерпретатору Python прямо во время размышления над задачей [01:24].
*   **Глубина планирования:** В одном из тестов модель o3 совершила 600 последовательных вызовов инструментов для решения сложной задачи [01:24].
*   **Научный потенциал:** Исследователи OpenAI утверждают, что это первые модели, которые, по отзывам ученых, генерируют «легитимно качественные и полезные новые идеи» [00:57].

Марк Чэнь привел пример того, как o3 предложила оригинальную идею для системной архитектуры внутри самой OpenAI, что удивило сотрудников компании [01:12]. 

## 🔬 Прорыв в научных исследованиях: физика и биология
[[JUMP:03:22]]

Исследователь Брэндон Маккензи продемонстрировал возможности o3 на примере сложной задачи из области физики частиц [03:35]. Он загрузил постер своего десятилетней давности интернатуры, посвященный оценке изовекторного скалярного заряда протона — величины, выходящей за рамки Стандартной модели.

В ходе эксперимента модель показала следующие результаты:

1.  **Мультимодальный анализ:** Система самостоятельно «рассматривала» постер, масштабируя нужные участки и графики [04:03].
2.  **Обнаружение недостающих данных:** o3 указала пользователю, что искомого финального результата на постере нет (что оказалось правдой, так как на момент создания постера данные еще не были получены) [04:16].
3.  **Самостоятельные вычисления:** Модель экстраполировала данные с графиков, учла массу кварков и применила необходимые константы для нормализации значений [04:28].
4.  **Литературный обзор:** Система за секунды изучила актуальные научные публикации, сравнив исторические данные пользователя с современными оценками [05:07].

По оценке Маккензи, человеку на подобную работу — от восстановления контекста старого проекта до анализа свежей литературы — потребовалось бы несколько дней, тогда как модель справилась за минуты [05:20].

Другой пример, представленный Эриком Митчеллом, касался междисциплинарного синтеза [06:25]. Используя функцию памяти (сведения о хобби пользователя: дайвинге и музыке), модель нашла и проанализировала научные статьи о восстановлении коралловых рифов с помощью подводных динамиков, транслирующих звуки здоровой экосистемы [07:42]. На основе этих данных система подготовила иллюстрированный пост для блога с графиками и ссылками на источники [08:08].

## 📊 Бенчмарки и техническое превосходство
[[JUMP:09:05]]

Новые модели демонстрируют результаты, граничащие с теоретическим пределом существующих тестов. Исследователи Ана и Венда представили обновленные данные по ключевым дисциплинам [10:12]:

*   **Математика (AIME):** Модель o3 достигла точности 98,4%, а o4-mini с использованием инструментов — невероятных 99,9% [09:05].
*   **Программирование (Codeforces):** Системы набрали более 2700 баллов, что соответствует уровню топ-200 лучших участников соревнований в мире [10:39].
*   **Наука (GPQA):** В тесте с вопросами уровня PhD модель o3 показала результат выше 83% [10:39].

Технический прогресс o3 обусловлен десятикратным увеличением вычислительных мощностей, затраченных на обучение (training compute), по сравнению с моделью o1 [16:28]. При этом OpenAI подчеркивает, что продолжает работать над эффективностью: o4-mini значительно дешевле в использовании, чем o3-mini, при более высокой производительности [15:11].

Венда продемонстрировал, как модель решает математические задачи [11:16]:

*   Сначала она создает «грубое» решение перебором (brute force) на Python.
*   Затем, осознав неэлегантность метода, переписывает код для более умного и быстрого решения.
*   В конце проводит самопроверку (double-check) для подтверждения надежности ответа.

## 💻 Революция в кодинге: SWE-bench и автономные агенты
[[JUMP:11:54]]

Одним из самых впечатляющих этапов презентации стал разбор решения реального бага в открытой библиотеке SymPy (библиотека для символьной математики на Python) [12:33]. Модели o3 был предоставлен доступ к контейнеру с виртуальной машиной и полным репозиторием кода.

Процесс автономной работы модели включал:

1.  **Воспроизведение бага:** Модель написала тест, чтобы убедиться, что проблема действительно существует [12:58].
2.  **Навигацию по кодовой базе:** Использование стандартных терминальных команд (ls, cat) для изучения структуры проекта [13:11].
3.  **Глубокий анализ:** Модель проверила иерархию наследования классов (MRO в Python) и обнаружила архитектурную ошибку [13:39].
4.  **Исправление и верификацию:** Система внесла правки и запустила юнит-тесты для подтверждения успеха [13:54].

В среднем такие задачи требуют от модели около 37 взаимодействий с контейнером, но в сложных случаях количество операций может превышать 100 [14:06]. При этом модель сохраняет контекст и надежность на протяжении всего длинного процесса (long rollout).

## 🛠 Codex CLI и поддержка Open Source
[[JUMP:17:07]]

OpenAI возрождает бренд Codex, представляя **Codex CLI** — интерфейс командной строки, который связывает модели o3 и o4-mini напрямую с компьютером пользователя [18:24].

Функционал Codex CLI:

*   **Режимы работы:** «Suggest mode» (советы, требующие подтверждения) и «Full auto» (автономное выполнение команд в безопасной среде) [20:19].
*   **Безопасность:** Работа в изолированных директориях с ограниченным доступом к сети [20:19].
*   **Мультимодальность:** Возможность «перетащить» скриншот проблемы прямо в терминал, чтобы модель проанализировала визуальный контекст [19:03].

В качестве демонстрации Фуад и Майкл за несколько минут модифицировали программу, превращающую видео с веб-камеры в ASCII-арт в реальном времени, добавив настройки разрешения и слайдеры управления [20:32].

Компания объявила об открытии исходного кода Codex CLI (репозиторий OpenAI/Codex на GitHub) и выделении гранта в размере **1 миллиона долларов** в виде API-кредитов для поддержки разработчиков открытого ПО, использующих этот инструмент [21:09].

## 📅 Доступность и планы на будущее
[[JUMP:21:35]]

Марк Чэнь подтвердил, что развертывание новых моделей начинается немедленно [21:35]:

*   **Подписчики ChatGPT Pro, Plus и Team:** Начинают получать доступ к o3, o4-mini и o4-mini-high с сегодняшнего дня.
*   **Enterprise и EDU:** Доступ откроется через неделю.
*   **o3 Pro:** Появится позже, так как требует дополнительной настройки функций.
*   **API:** Модели доступны в API, а поддержка использования инструментов (tool usage) через программный интерфейс появится в ближайшие недели [22:01].

В заключение Чэнь подчеркнул, что эти модели являются важным шагом в миссии OpenAI по созданию сильного искусственного интеллекта (AGI), который принесет пользу всему человечеству, значительно ускоряя научный прогресс и упрощая повседневную интеллектуальную работу [22:13].