OpenAI представила o3: от чат-ботов к автономным научным системам

Компания OpenAI представила новое поколение моделей o3 и o4-mini, которые разработчики классифицируют уже не просто как языковые модели, а как полноценные «ИИ-системы» (AI systems). В ходе презентации, которую проанализировал автор канала Wes Roth, руководители и исследователи OpenAI продемонстрировали, как новые алгоритмы справляются с задачами уровня докторов наук, самостоятельно проводят научные изыскания и исправляют ошибки в реальных программных кодах.

🤖 От моделей к системам: запуск o3 и o4-mini 0:00

OpenAI объявила о существенном обновлении своей линейки: модель o3 приходит на смену o1, а o4-mini заменяет o3-mini . По словам сооснователя компании Грега Брокмана и директора по исследованиям Марка Чэня, это качественный скачок, сопоставимый с выходом GPT-4 . Основное отличие новых версий заключается в том, что они спроектированы как системы, способные активно использовать инструменты в процессе «цепочки рассуждений» (Chain of Thought).

Ключевые особенности новых систем:

Использование инструментов: Модели могут обращаться к калькулятору, поиску в интернете или интерпретатору Python прямо во время размышления над задачей .
Глубина планирования: В одном из тестов модель o3 совершила 600 последовательных вызовов инструментов для решения сложной задачи .
Научный потенциал: Исследователи OpenAI утверждают, что это первые модели, которые, по отзывам ученых, генерируют «легитимно качественные и полезные новые идеи» .

Марк Чэнь привел пример того, как o3 предложила оригинальную идею для системной архитектуры внутри самой OpenAI, что удивило сотрудников компании .

🔬 Прорыв в научных исследованиях: физика и биология 3:22

Исследователь Брэндон Маккензи продемонстрировал возможности o3 на примере сложной задачи из области физики частиц . Он загрузил постер своего десятилетней давности интернатуры, посвященный оценке изовекторного скалярного заряда протона — величины, выходящей за рамки Стандартной модели.

В ходе эксперимента модель показала следующие результаты:

Мультимодальный анализ: Система самостоятельно «рассматривала» постер, масштабируя нужные участки и графики .
Обнаружение недостающих данных: o3 указала пользователю, что искомого финального результата на постере нет (что оказалось правдой, так как на момент создания постера данные еще не были получены) .
Самостоятельные вычисления: Модель экстраполировала данные с графиков, учла массу кварков и применила необходимые константы для нормализации значений .
Литературный обзор: Система за секунды изучила актуальные научные публикации, сравнив исторические данные пользователя с современными оценками .

По оценке Маккензи, человеку на подобную работу — от восстановления контекста старого проекта до анализа свежей литературы — потребовалось бы несколько дней, тогда как модель справилась за минуты .

Другой пример, представленный Эриком Митчеллом, касался междисциплинарного синтеза . Используя функцию памяти (сведения о хобби пользователя: дайвинге и музыке), модель нашла и проанализировала научные статьи о восстановлении коралловых рифов с помощью подводных динамиков, транслирующих звуки здоровой экосистемы . На основе этих данных система подготовила иллюстрированный пост для блога с графиками и ссылками на источники .

📊 Бенчмарки и техническое превосходство 9:05

Новые модели демонстрируют результаты, граничащие с теоретическим пределом существующих тестов. Исследователи Ана и Венда представили обновленные данные по ключевым дисциплинам :

Математика (AIME): Модель o3 достигла точности 98,4%, а o4-mini с использованием инструментов — невероятных 99,9% .
Программирование (Codeforces): Системы набрали более 2700 баллов, что соответствует уровню топ-200 лучших участников соревнований в мире .
Наука (GPQA): В тесте с вопросами уровня PhD модель o3 показала результат выше 83% .

Технический прогресс o3 обусловлен десятикратным увеличением вычислительных мощностей, затраченных на обучение (training compute), по сравнению с моделью o1 . При этом OpenAI подчеркивает, что продолжает работать над эффективностью: o4-mini значительно дешевле в использовании, чем o3-mini, при более высокой производительности .

Венда продемонстрировал, как модель решает математические задачи :

Сначала она создает «грубое» решение перебором (brute force) на Python.
Затем, осознав неэлегантность метода, переписывает код для более умного и быстрого решения.
В конце проводит самопроверку (double-check) для подтверждения надежности ответа.

💻 Революция в кодинге: SWE-bench и автономные агенты 11:54

Одним из самых впечатляющих этапов презентации стал разбор решения реального бага в открытой библиотеке SymPy (библиотека для символьной математики на Python) . Модели o3 был предоставлен доступ к контейнеру с виртуальной машиной и полным репозиторием кода.

Процесс автономной работы модели включал:

Воспроизведение бага: Модель написала тест, чтобы убедиться, что проблема действительно существует .
Навигацию по кодовой базе: Использование стандартных терминальных команд (ls, cat) для изучения структуры проекта .
Глубокий анализ: Модель проверила иерархию наследования классов (MRO в Python) и обнаружила архитектурную ошибку .
Исправление и верификацию: Система внесла правки и запустила юнит-тесты для подтверждения успеха .

В среднем такие задачи требуют от модели около 37 взаимодействий с контейнером, но в сложных случаях количество операций может превышать 100 . При этом модель сохраняет контекст и надежность на протяжении всего длинного процесса (long rollout).

🛠 Codex CLI и поддержка Open Source 17:07

OpenAI возрождает бренд Codex, представляя Codex CLI — интерфейс командной строки, который связывает модели o3 и o4-mini напрямую с компьютером пользователя .

Функционал Codex CLI:

Режимы работы: «Suggest mode» (советы, требующие подтверждения) и «Full auto» (автономное выполнение команд в безопасной среде) .
Безопасность: Работа в изолированных директориях с ограниченным доступом к сети .
Мультимодальность: Возможность «перетащить» скриншот проблемы прямо в терминал, чтобы модель проанализировала визуальный контекст .

В качестве демонстрации Фуад и Майкл за несколько минут модифицировали программу, превращающую видео с веб-камеры в ASCII-арт в реальном времени, добавив настройки разрешения и слайдеры управления .

Компания объявила об открытии исходного кода Codex CLI (репозиторий OpenAI/Codex на GitHub) и выделении гранта в размере 1 миллиона долларов в виде API-кредитов для поддержки разработчиков открытого ПО, использующих этот инструмент .

📅 Доступность и планы на будущее 21:35

Марк Чэнь подтвердил, что развертывание новых моделей начинается немедленно :

Подписчики ChatGPT Pro, Plus и Team: Начинают получать доступ к o3, o4-mini и o4-mini-high с сегодняшнего дня.
Enterprise и EDU: Доступ откроется через неделю.
o3 Pro: Появится позже, так как требует дополнительной настройки функций.
API: Модели доступны в API, а поддержка использования инструментов (tool usage) через программный интерфейс появится в ближайшие недели .

В заключение Чэнь подчеркнул, что эти модели являются важным шагом в миссии OpenAI по созданию сильного искусственного интеллекта (AGI), который принесет пользу всему человечеству, значительно ускоряя научный прогресс и упрощая повседневную интеллектуальную работу .