# Сэм Альтман: «Сверхчеловеческий ИИ-кодер появится к концу 2025 года»

Источник: https://www.youtube.com/watch?v=SuP1z6P26zU
Канал: Wes Roth
Опубликовано: 12.02.2025

---

Компания OpenAI опубликовала результаты нового исследования «Competitive programming with large reasoning models», в котором модель o3 продемонстрировала выдающиеся результаты, завоевав золотую медаль на Международной олимпиаде по информатике (IOI). Ведущий Уэс Рот анализирует переход от стандартных языковых моделей к новому классу «больших моделей рассуждений» (LRM) и обсуждает амбициозный прогноз Сэма Альтмана о появлении ИИ-кодера сверхчеловеческого уровня уже к концу 2025 года.

## 🧠 Эпоха больших моделей рассуждений (LRM)
[[JUMP:0:00]]

OpenAI вводит в обиход новый термин — «большие модели рассуждений» (Large Reasoning Models, LRM) [0:05]. К этому классу относятся такие модели, как o1 и o3. Основное отличие от традиционных LLM (больших языковых моделей) заключается в использовании обучения с подкреплением (Reinforcement Learning, RL), что значительно повышает производительность при решении сложных задач по программированию и логике [0:14].

По словам Уэса Рота, сочетание RL и языковых моделей дает «дикие результаты» [0:27]:

*   Модели развивают собственные когнитивные стратегии.
*   У них появляются сложные способности к рассуждению, специфичные для конкретных задач.
*   Они демонстрируют поведение, которое кажется уникальным для решаемой проблемы.

Сэм Альтман утверждает, что прогресс в кодинге идет экспоненциально: первая модель рассуждений была миллионной в мире среди кодеров, следующая — десятитысячной, затем — 175-й, а текущая внутренняя модель уже входит в топ-50 [1:07]. Альтман ожидает, что ИИ займет первое место в мире в течение 2025 года [1:20].

## 🥇 Золотая медаль IOI: специализированный vs универсальный подход
[[JUMP:1:31]]

Международная олимпиада по информатике (IOI) — одно из самых престижных соревнований для программистов-школьников. OpenAI протестировала две разные стратегии использования своих моделей для решения задач олимпиады [1:47]:

1.  **Специализированная модель (o1-ioi):** Включает «человеческую смекалку». Она генерирует 10 000 вариантов ответов, использует кластеризацию, переранжирование и ручную разбивку задач на подзадачи [2:00].
2.  **Универсальная модель (o3):** Масштабируемая модель общего назначения, не полагающаяся на специфические для предметной области эвристики [3:48].

Исследование показало, что хотя специализированная модель o1-ioi показала солидный результат (49-й процентиль среди участников), новая модель o3 превзошла её [3:34]. o3 завоевала золотую медаль IOI 2024 года, не используя ручные стратегии вывода или смягченные условия конкурса [3:48].

На платформе Codeforces, где соревнуются лучшие программисты мира, результаты распределились следующим образом [4:26]:

*   **GPT-4o:** 11-й процентиль (лучше, чем 10% участников).
*   **o1-preview:** 62-й процентиль.
*   **o1:** 89-й процентиль.
*   **o3:** Уровень элитных человеческих конкурентов (175-е место в мире) [21:06].

## 🛠️ Программирование как рычаг для развития ИИ
[[JUMP:4:51]]

Уэс Рот отмечает, что фокус на программировании не случаен. Большинство исследователей ИИ сами являются программистами, и обучение моделей качественному написанию кода разблокирует огромный функционал [5:05]. ИИ-модели начинают создавать инструменты «на лету» для решения собственных задач.

В качестве примера Рот вспоминает жалобы пользователей на то, что ChatGPT плохо считает [5:18]. Модель решила эту проблему, начав писать код на Python для вычислений: «Вместо того чтобы быть калькулятором, она просто закодила свой собственный калькулятор» [5:30].

Если ИИ станет достаточно хорошим программистом, он сможет [5:55]:

*   Самостоятельно проводить эксперименты.
*   Писать код для проверки научных гипотез.
*   Создавать конвейеры обучения (pipeline) для других агентов ИИ, как это делала o3 mini в тестах Рота [6:07].

## 🏢 Реальные задачи против олимпиадных тестов
[[JUMP:6:31]]

Критики часто утверждают, что успехи на Codeforces или IOI не отражают реальных навыков программной инженерии. Чтобы ответить на этот вопрос, OpenAI провела тесты на других платформах [7:00]:

*   **HackerRank Astra:** Задачи, ориентированные на проекты, имитирующие реальную разработку.
*   **SWE-bench Verified:** Набор проблем из реальных репозиториев с открытым исходным кодом, проверенный людьми.

Результаты на SWE-bench показали резкий скачок: если o1 решала определенный процент задач, то o3 достигла отметки 71,7% [19:20]. По мнению исследователей OpenAI, это доказывает, что навыки рассуждения распространяются за пределы олимпиад на практические задачи индустрии [19:32].

## 🧠 Обучение с подкреплением (RL) против запоминания
[[JUMP:11:45]]

Исследование Google DeepMind под заголовком «Supervised fine-tuning memorizes, reinforcement learning generalizes» (Тонкая настройка запоминает, обучение с подкреплением обобщает) подтверждает стратегию OpenAI [12:52]. Обучение с подкреплением работает по принципу поощрения за правильные шаги, что со временем формирует у модели «политику поведения» [13:05].

Уэс Рот обращает внимание на мем Ноама Брауна (исследователя OpenAI), где сравниваются два подхода: «сложное статистическое обучение» (которое ведет к снижению результатов) и подход «просто добавь больше слоев» (stack more layers), который показывает рост [11:20]. Это иронично подчеркивает, что масштабирование общих способностей модели часто эффективнее, чем попытки «подправить» её вручную под конкретную задачу.

В отличие от AlphaCode (от DeepMind), которая генерировала до 1 миллиона вариантов решения для выбора лучшего, модели OpenAI используют более эффективную выборку [12:12]. Например, o1-ioi требовалось «всего» 10 000 сэмплов [8:05].

## 🔮 Будущее: исчезновение SaaS и сверхчеловеческий кодинг
[[JUMP:20:51]]

Обсуждая долгосрочные последствия, Уэс Рот цитирует мнение Райли Брауна: в ближайшие пять лет главной угрозой для компаний, работающих по модели SaaS (программное обеспечение как услуга), станут их собственные клиенты [23:17]. Имея доступ к моделям уровня o3 или будущим o4/o5, клиенты смогут сами создавать нужные им инструменты за 45 минут, вместо того чтобы платить за подписку [23:31].

Однако не все эксперты согласны с интерпретацией результатов OpenAI. Таниш Мэтью Абрахам (Tanishq Mathew Abraham) задается вопросом: если универсальная o3 побила специализированную o1-ioi, то насколько мощной была бы специализированная o3-ioi? [23:45]. Остается открытым вопрос, стоит ли тратить ресурсы на специализацию моделей, если простое масштабирование (stacking more layers) дает такие результаты [24:11].

Ведущий заключает, что если текущий темп сохранится и OpenAI выпустит o4 в конце 2025 года, мы действительно можем увидеть появление «сверхчеловеческого кодера», что станет фундаментальным сдвигом во всех сферах человеческой деятельности [23:04].