Компания OpenAI представила новое поколение моделей o3 и o4-mini, которые разработчики классифицируют уже не просто как языковые модели, а как полноценные «ИИ-системы» (AI systems). В ходе презентации, которую проанализировал автор канала Wes Roth, руководители и исследователи OpenAI продемонстрировали, как новые алгоритмы справляются с задачами уровня докторов наук, самостоятельно проводят научные изыскания и исправляют ошибки в реальных программных кодах.
🤖 От моделей к системам: запуск o3 и o4-mini 0:00
OpenAI объявила о существенном обновлении своей линейки: модель o3 приходит на смену o1, а o4-mini заменяет o3-mini . По словам сооснователя компании Грега Брокмана и директора по исследованиям Марка Чэня, это качественный скачок, сопоставимый с выходом GPT-4 . Основное отличие новых версий заключается в том, что они спроектированы как системы, способные активно использовать инструменты в процессе «цепочки рассуждений» (Chain of Thought).
Ключевые особенности новых систем:
- Использование инструментов: Модели могут обращаться к калькулятору, поиску в интернете или интерпретатору Python прямо во время размышления над задачей .
- Глубина планирования: В одном из тестов модель o3 совершила 600 последовательных вызовов инструментов для решения сложной задачи .
- Научный потенциал: Исследователи OpenAI утверждают, что это первые модели, которые, по отзывам ученых, генерируют «легитимно качественные и полезные новые идеи» .
Марк Чэнь привел пример того, как o3 предложила оригинальную идею для системной архитектуры внутри самой OpenAI, что удивило сотрудников компании .
🔬 Прорыв в научных исследованиях: физика и биология 3:22
Исследователь Брэндон Маккензи продемонстрировал возможности o3 на примере сложной задачи из области физики частиц . Он загрузил постер своего десятилетней давности интернатуры, посвященный оценке изовекторного скалярного заряда протона — величины, выходящей за рамки Стандартной модели.
В ходе эксперимента модель показала следующие результаты:
- Мультимодальный анализ: Система самостоятельно «рассматривала» постер, масштабируя нужные участки и графики .
- Обнаружение недостающих данных: o3 указала пользователю, что искомого финального результата на постере нет (что оказалось правдой, так как на момент создания постера данные еще не были получены) .
- Самостоятельные вычисления: Модель экстраполировала данные с графиков, учла массу кварков и применила необходимые константы для нормализации значений .
- Литературный обзор: Система за секунды изучила актуальные научные публикации, сравнив исторические данные пользователя с современными оценками .
По оценке Маккензи, человеку на подобную работу — от восстановления контекста старого проекта до анализа свежей литературы — потребовалось бы несколько дней, тогда как модель справилась за минуты .
Другой пример, представленный Эриком Митчеллом, касался междисциплинарного синтеза . Используя функцию памяти (сведения о хобби пользователя: дайвинге и музыке), модель нашла и проанализировала научные статьи о восстановлении коралловых рифов с помощью подводных динамиков, транслирующих звуки здоровой экосистемы . На основе этих данных система подготовила иллюстрированный пост для блога с графиками и ссылками на источники .
📊 Бенчмарки и техническое превосходство 9:05
Новые модели демонстрируют результаты, граничащие с теоретическим пределом существующих тестов. Исследователи Ана и Венда представили обновленные данные по ключевым дисциплинам :
- Математика (AIME): Модель o3 достигла точности 98,4%, а o4-mini с использованием инструментов — невероятных 99,9% .
- Программирование (Codeforces): Системы набрали более 2700 баллов, что соответствует уровню топ-200 лучших участников соревнований в мире .
- Наука (GPQA): В тесте с вопросами уровня PhD модель o3 показала результат выше 83% .
Технический прогресс o3 обусловлен десятикратным увеличением вычислительных мощностей, затраченных на обучение (training compute), по сравнению с моделью o1 . При этом OpenAI подчеркивает, что продолжает работать над эффективностью: o4-mini значительно дешевле в использовании, чем o3-mini, при более высокой производительности .
Венда продемонстрировал, как модель решает математические задачи :
- Сначала она создает «грубое» решение перебором (brute force) на Python.
- Затем, осознав неэлегантность метода, переписывает код для более умного и быстрого решения.
- В конце проводит самопроверку (double-check) для подтверждения надежности ответа.
💻 Революция в кодинге: SWE-bench и автономные агенты 11:54
Одним из самых впечатляющих этапов презентации стал разбор решения реального бага в открытой библиотеке SymPy (библиотека для символьной математики на Python) . Модели o3 был предоставлен доступ к контейнеру с виртуальной машиной и полным репозиторием кода.
Процесс автономной работы модели включал:
- Воспроизведение бага: Модель написала тест, чтобы убедиться, что проблема действительно существует .
- Навигацию по кодовой базе: Использование стандартных терминальных команд (ls, cat) для изучения структуры проекта .
- Глубокий анализ: Модель проверила иерархию наследования классов (MRO в Python) и обнаружила архитектурную ошибку .
- Исправление и верификацию: Система внесла правки и запустила юнит-тесты для подтверждения успеха .
В среднем такие задачи требуют от модели около 37 взаимодействий с контейнером, но в сложных случаях количество операций может превышать 100 . При этом модель сохраняет контекст и надежность на протяжении всего длинного процесса (long rollout).
🛠 Codex CLI и поддержка Open Source 17:07
OpenAI возрождает бренд Codex, представляя Codex CLI — интерфейс командной строки, который связывает модели o3 и o4-mini напрямую с компьютером пользователя .
Функционал Codex CLI:
- Режимы работы: «Suggest mode» (советы, требующие подтверждения) и «Full auto» (автономное выполнение команд в безопасной среде) .
- Безопасность: Работа в изолированных директориях с ограниченным доступом к сети .
- Мультимодальность: Возможность «перетащить» скриншот проблемы прямо в терминал, чтобы модель проанализировала визуальный контекст .
В качестве демонстрации Фуад и Майкл за несколько минут модифицировали программу, превращающую видео с веб-камеры в ASCII-арт в реальном времени, добавив настройки разрешения и слайдеры управления .
Компания объявила об открытии исходного кода Codex CLI (репозиторий OpenAI/Codex на GitHub) и выделении гранта в размере 1 миллиона долларов в виде API-кредитов для поддержки разработчиков открытого ПО, использующих этот инструмент .
📅 Доступность и планы на будущее 21:35
Марк Чэнь подтвердил, что развертывание новых моделей начинается немедленно :
- Подписчики ChatGPT Pro, Plus и Team: Начинают получать доступ к o3, o4-mini и o4-mini-high с сегодняшнего дня.
- Enterprise и EDU: Доступ откроется через неделю.
- o3 Pro: Появится позже, так как требует дополнительной настройки функций.
- API: Модели доступны в API, а поддержка использования инструментов (tool usage) через программный интерфейс появится в ближайшие недели .
В заключение Чэнь подчеркнул, что эти модели являются важным шагом в миссии OpenAI по созданию сильного искусственного интеллекта (AGI), который принесет пользу всему человечеству, значительно ускоряя научный прогресс и упрощая повседневную интеллектуальную работу .