OpenAI представила o3: от чат-ботов к автономным научным системам

Wes Roth 47,9 тыс. 22 мин 5 мин 16.04.2025
Главное

Компания OpenAI представила новое поколение моделей o3 и o4-mini, которые разработчики классифицируют уже не просто как языковые модели, а как полноценные «ИИ-системы» (AI systems). В ходе презентации, которую проанализировал автор канала Wes Roth, руководители и исследователи OpenAI продемонстрировали, как новые алгоритмы справляются с задачами уровня докторов наук, самостоятельно проводят научные изыскания и исправляют ошибки в реальных программных кодах.

🤖 От моделей к системам: запуск o3 и o4-mini 0:00

OpenAI объявила о существенном обновлении своей линейки: модель o3 приходит на смену o1, а o4-mini заменяет o3-mini . По словам сооснователя компании Грега Брокмана и директора по исследованиям Марка Чэня, это качественный скачок, сопоставимый с выходом GPT-4 . Основное отличие новых версий заключается в том, что они спроектированы как системы, способные активно использовать инструменты в процессе «цепочки рассуждений» (Chain of Thought).

Ключевые особенности новых систем:

Марк Чэнь привел пример того, как o3 предложила оригинальную идею для системной архитектуры внутри самой OpenAI, что удивило сотрудников компании .

🔬 Прорыв в научных исследованиях: физика и биология 3:22

Исследователь Брэндон Маккензи продемонстрировал возможности o3 на примере сложной задачи из области физики частиц . Он загрузил постер своего десятилетней давности интернатуры, посвященный оценке изовекторного скалярного заряда протона — величины, выходящей за рамки Стандартной модели.

В ходе эксперимента модель показала следующие результаты:

  1. Мультимодальный анализ: Система самостоятельно «рассматривала» постер, масштабируя нужные участки и графики .
  2. Обнаружение недостающих данных: o3 указала пользователю, что искомого финального результата на постере нет (что оказалось правдой, так как на момент создания постера данные еще не были получены) .
  3. Самостоятельные вычисления: Модель экстраполировала данные с графиков, учла массу кварков и применила необходимые константы для нормализации значений .
  4. Литературный обзор: Система за секунды изучила актуальные научные публикации, сравнив исторические данные пользователя с современными оценками .

По оценке Маккензи, человеку на подобную работу — от восстановления контекста старого проекта до анализа свежей литературы — потребовалось бы несколько дней, тогда как модель справилась за минуты .

Другой пример, представленный Эриком Митчеллом, касался междисциплинарного синтеза . Используя функцию памяти (сведения о хобби пользователя: дайвинге и музыке), модель нашла и проанализировала научные статьи о восстановлении коралловых рифов с помощью подводных динамиков, транслирующих звуки здоровой экосистемы . На основе этих данных система подготовила иллюстрированный пост для блога с графиками и ссылками на источники .

📊 Бенчмарки и техническое превосходство 9:05

Новые модели демонстрируют результаты, граничащие с теоретическим пределом существующих тестов. Исследователи Ана и Венда представили обновленные данные по ключевым дисциплинам :

Технический прогресс o3 обусловлен десятикратным увеличением вычислительных мощностей, затраченных на обучение (training compute), по сравнению с моделью o1 . При этом OpenAI подчеркивает, что продолжает работать над эффективностью: o4-mini значительно дешевле в использовании, чем o3-mini, при более высокой производительности .

Венда продемонстрировал, как модель решает математические задачи :

💻 Революция в кодинге: SWE-bench и автономные агенты 11:54

Одним из самых впечатляющих этапов презентации стал разбор решения реального бага в открытой библиотеке SymPy (библиотека для символьной математики на Python) . Модели o3 был предоставлен доступ к контейнеру с виртуальной машиной и полным репозиторием кода.

Процесс автономной работы модели включал:

  1. Воспроизведение бага: Модель написала тест, чтобы убедиться, что проблема действительно существует .
  2. Навигацию по кодовой базе: Использование стандартных терминальных команд (ls, cat) для изучения структуры проекта .
  3. Глубокий анализ: Модель проверила иерархию наследования классов (MRO в Python) и обнаружила архитектурную ошибку .
  4. Исправление и верификацию: Система внесла правки и запустила юнит-тесты для подтверждения успеха .

В среднем такие задачи требуют от модели около 37 взаимодействий с контейнером, но в сложных случаях количество операций может превышать 100 . При этом модель сохраняет контекст и надежность на протяжении всего длинного процесса (long rollout).

🛠 Codex CLI и поддержка Open Source 17:07

OpenAI возрождает бренд Codex, представляя Codex CLI — интерфейс командной строки, который связывает модели o3 и o4-mini напрямую с компьютером пользователя .

Функционал Codex CLI:

В качестве демонстрации Фуад и Майкл за несколько минут модифицировали программу, превращающую видео с веб-камеры в ASCII-арт в реальном времени, добавив настройки разрешения и слайдеры управления .

Компания объявила об открытии исходного кода Codex CLI (репозиторий OpenAI/Codex на GitHub) и выделении гранта в размере 1 миллиона долларов в виде API-кредитов для поддержки разработчиков открытого ПО, использующих этот инструмент .

📅 Доступность и планы на будущее 21:35

Марк Чэнь подтвердил, что развертывание новых моделей начинается немедленно :

В заключение Чэнь подчеркнул, что эти модели являются важным шагом в миссии OpenAI по созданию сильного искусственного интеллекта (AGI), который принесет пользу всему человечеству, значительно ускоряя научный прогресс и упрощая повседневную интеллектуальную работу .

💬 Цитаты

«Это первые модели, где ведущие ученые говорят нам, что они производят по-настоящему хорошие и полезные новые идеи.»

Марк Чэнь 00:57

«Мы потратили в 10 раз больше вычислительных ресурсов на обучение o3 по сравнению с o1.»

Марк Чэнь 16:28
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Chain of Thought
Метод работы ИИ, при котором модель последовательно рассуждает вслух перед выдачей финального ответа.
AIME
Американский отборочный математический экзамен, один из сложнейших школьных тестов в мире.
SWE-bench
Бенчмарк для проверки способности ИИ решать реальные задачи по разработке программного обеспечения в существующих репозиториях.
MRO (Method Resolution Order)
Порядок поиска методов в иерархии классов при наследовании в языке Python.
📊 Цифры
🗓 Хронология
  1. 2015 Брэндон Маккензи проходит интернатуру по физике, данные которой позже проанализирует o3.
  2. Сегодня Запуск o3 и o4-mini для подписчиков ChatGPT Pro, Plus и Team.
  3. Через 1 неделю Доступ к новым моделям для пользователей Enterprise и EDU.
⚖️ Другая сторона
Искусственный интеллект OpenAI o3 model o4-mini Codex CLI AGI