Компания OpenAI опубликовала результаты нового исследования «Competitive programming with large reasoning models», в котором модель o3 продемонстрировала выдающиеся результаты, завоевав золотую медаль на Международной олимпиаде по информатике (IOI). Ведущий Уэс Рот анализирует переход от стандартных языковых моделей к новому классу «больших моделей рассуждений» (LRM) и обсуждает амбициозный прогноз Сэма Альтмана о появлении ИИ-кодера сверхчеловеческого уровня уже к концу 2025 года.
🧠 Эпоха больших моделей рассуждений (LRM) 0:00
OpenAI вводит в обиход новый термин — «большие модели рассуждений» (Large Reasoning Models, LRM) . К этому классу относятся такие модели, как o1 и o3. Основное отличие от традиционных LLM (больших языковых моделей) заключается в использовании обучения с подкреплением (Reinforcement Learning, RL), что значительно повышает производительность при решении сложных задач по программированию и логике .
По словам Уэса Рота, сочетание RL и языковых моделей дает «дикие результаты» :
- Модели развивают собственные когнитивные стратегии.
- У них появляются сложные способности к рассуждению, специфичные для конкретных задач.
- Они демонстрируют поведение, которое кажется уникальным для решаемой проблемы.
Сэм Альтман утверждает, что прогресс в кодинге идет экспоненциально: первая модель рассуждений была миллионной в мире среди кодеров, следующая — десятитысячной, затем — 175-й, а текущая внутренняя модель уже входит в топ-50 . Альтман ожидает, что ИИ займет первое место в мире в течение 2025 года .
🥇 Золотая медаль IOI: специализированный vs универсальный подход 1:31
Международная олимпиада по информатике (IOI) — одно из самых престижных соревнований для программистов-школьников. OpenAI протестировала две разные стратегии использования своих моделей для решения задач олимпиады :
- Специализированная модель (o1-ioi): Включает «человеческую смекалку». Она генерирует 10 000 вариантов ответов, использует кластеризацию, переранжирование и ручную разбивку задач на подзадачи .
- Универсальная модель (o3): Масштабируемая модель общего назначения, не полагающаяся на специфические для предметной области эвристики .
Исследование показало, что хотя специализированная модель o1-ioi показала солидный результат (49-й процентиль среди участников), новая модель o3 превзошла её . o3 завоевала золотую медаль IOI 2024 года, не используя ручные стратегии вывода или смягченные условия конкурса .
На платформе Codeforces, где соревнуются лучшие программисты мира, результаты распределились следующим образом :
- GPT-4o: 11-й процентиль (лучше, чем 10% участников).
- o1-preview: 62-й процентиль.
- o1: 89-й процентиль.
- o3: Уровень элитных человеческих конкурентов (175-е место в мире) .
🛠️ Программирование как рычаг для развития ИИ 4:51
Уэс Рот отмечает, что фокус на программировании не случаен. Большинство исследователей ИИ сами являются программистами, и обучение моделей качественному написанию кода разблокирует огромный функционал . ИИ-модели начинают создавать инструменты «на лету» для решения собственных задач.
В качестве примера Рот вспоминает жалобы пользователей на то, что ChatGPT плохо считает . Модель решила эту проблему, начав писать код на Python для вычислений: «Вместо того чтобы быть калькулятором, она просто закодила свой собственный калькулятор» .
Если ИИ станет достаточно хорошим программистом, он сможет :
- Самостоятельно проводить эксперименты.
- Писать код для проверки научных гипотез.
- Создавать конвейеры обучения (pipeline) для других агентов ИИ, как это делала o3 mini в тестах Рота .
🏢 Реальные задачи против олимпиадных тестов 6:31
Критики часто утверждают, что успехи на Codeforces или IOI не отражают реальных навыков программной инженерии. Чтобы ответить на этот вопрос, OpenAI провела тесты на других платформах :
- HackerRank Astra: Задачи, ориентированные на проекты, имитирующие реальную разработку.
- SWE-bench Verified: Набор проблем из реальных репозиториев с открытым исходным кодом, проверенный людьми.
Результаты на SWE-bench показали резкий скачок: если o1 решала определенный процент задач, то o3 достигла отметки 71,7% . По мнению исследователей OpenAI, это доказывает, что навыки рассуждения распространяются за пределы олимпиад на практические задачи индустрии .
🧠 Обучение с подкреплением (RL) против запоминания 11:45
Исследование Google DeepMind под заголовком «Supervised fine-tuning memorizes, reinforcement learning generalizes» (Тонкая настройка запоминает, обучение с подкреплением обобщает) подтверждает стратегию OpenAI . Обучение с подкреплением работает по принципу поощрения за правильные шаги, что со временем формирует у модели «политику поведения» .
Уэс Рот обращает внимание на мем Ноама Брауна (исследователя OpenAI), где сравниваются два подхода: «сложное статистическое обучение» (которое ведет к снижению результатов) и подход «просто добавь больше слоев» (stack more layers), который показывает рост . Это иронично подчеркивает, что масштабирование общих способностей модели часто эффективнее, чем попытки «подправить» её вручную под конкретную задачу.
В отличие от AlphaCode (от DeepMind), которая генерировала до 1 миллиона вариантов решения для выбора лучшего, модели OpenAI используют более эффективную выборку . Например, o1-ioi требовалось «всего» 10 000 сэмплов .
🔮 Будущее: исчезновение SaaS и сверхчеловеческий кодинг 20:51
Обсуждая долгосрочные последствия, Уэс Рот цитирует мнение Райли Брауна: в ближайшие пять лет главной угрозой для компаний, работающих по модели SaaS (программное обеспечение как услуга), станут их собственные клиенты . Имея доступ к моделям уровня o3 или будущим o4/o5, клиенты смогут сами создавать нужные им инструменты за 45 минут, вместо того чтобы платить за подписку .
Однако не все эксперты согласны с интерпретацией результатов OpenAI. Таниш Мэтью Абрахам (Tanishq Mathew Abraham) задается вопросом: если универсальная o3 побила специализированную o1-ioi, то насколько мощной была бы специализированная o3-ioi? . Остается открытым вопрос, стоит ли тратить ресурсы на специализацию моделей, если простое масштабирование (stacking more layers) дает такие результаты .
Ведущий заключает, что если текущий темп сохранится и OpenAI выпустит o4 в конце 2025 года, мы действительно можем увидеть появление «сверхчеловеческого кодера», что станет фундаментальным сдвигом во всех сферах человеческой деятельности .