Сэм Альтман: «Сверхчеловеческий ИИ-кодер появится к концу 2025 года»

Wes Roth 50,9 тыс. 24 мин 4 мин 12.02.2025
Главное

Компания OpenAI опубликовала результаты нового исследования «Competitive programming with large reasoning models», в котором модель o3 продемонстрировала выдающиеся результаты, завоевав золотую медаль на Международной олимпиаде по информатике (IOI). Ведущий Уэс Рот анализирует переход от стандартных языковых моделей к новому классу «больших моделей рассуждений» (LRM) и обсуждает амбициозный прогноз Сэма Альтмана о появлении ИИ-кодера сверхчеловеческого уровня уже к концу 2025 года.

🧠 Эпоха больших моделей рассуждений (LRM) 0:00

OpenAI вводит в обиход новый термин — «большие модели рассуждений» (Large Reasoning Models, LRM) . К этому классу относятся такие модели, как o1 и o3. Основное отличие от традиционных LLM (больших языковых моделей) заключается в использовании обучения с подкреплением (Reinforcement Learning, RL), что значительно повышает производительность при решении сложных задач по программированию и логике .

По словам Уэса Рота, сочетание RL и языковых моделей дает «дикие результаты» :

Сэм Альтман утверждает, что прогресс в кодинге идет экспоненциально: первая модель рассуждений была миллионной в мире среди кодеров, следующая — десятитысячной, затем — 175-й, а текущая внутренняя модель уже входит в топ-50 . Альтман ожидает, что ИИ займет первое место в мире в течение 2025 года .

🥇 Золотая медаль IOI: специализированный vs универсальный подход 1:31

Международная олимпиада по информатике (IOI) — одно из самых престижных соревнований для программистов-школьников. OpenAI протестировала две разные стратегии использования своих моделей для решения задач олимпиады :

  1. Специализированная модель (o1-ioi): Включает «человеческую смекалку». Она генерирует 10 000 вариантов ответов, использует кластеризацию, переранжирование и ручную разбивку задач на подзадачи .
  2. Универсальная модель (o3): Масштабируемая модель общего назначения, не полагающаяся на специфические для предметной области эвристики .

Исследование показало, что хотя специализированная модель o1-ioi показала солидный результат (49-й процентиль среди участников), новая модель o3 превзошла её . o3 завоевала золотую медаль IOI 2024 года, не используя ручные стратегии вывода или смягченные условия конкурса .

На платформе Codeforces, где соревнуются лучшие программисты мира, результаты распределились следующим образом :

🛠️ Программирование как рычаг для развития ИИ 4:51

Уэс Рот отмечает, что фокус на программировании не случаен. Большинство исследователей ИИ сами являются программистами, и обучение моделей качественному написанию кода разблокирует огромный функционал . ИИ-модели начинают создавать инструменты «на лету» для решения собственных задач.

В качестве примера Рот вспоминает жалобы пользователей на то, что ChatGPT плохо считает . Модель решила эту проблему, начав писать код на Python для вычислений: «Вместо того чтобы быть калькулятором, она просто закодила свой собственный калькулятор» .

Если ИИ станет достаточно хорошим программистом, он сможет :

🏢 Реальные задачи против олимпиадных тестов 6:31

Критики часто утверждают, что успехи на Codeforces или IOI не отражают реальных навыков программной инженерии. Чтобы ответить на этот вопрос, OpenAI провела тесты на других платформах :

Результаты на SWE-bench показали резкий скачок: если o1 решала определенный процент задач, то o3 достигла отметки 71,7% . По мнению исследователей OpenAI, это доказывает, что навыки рассуждения распространяются за пределы олимпиад на практические задачи индустрии .

🧠 Обучение с подкреплением (RL) против запоминания 11:45

Исследование Google DeepMind под заголовком «Supervised fine-tuning memorizes, reinforcement learning generalizes» (Тонкая настройка запоминает, обучение с подкреплением обобщает) подтверждает стратегию OpenAI . Обучение с подкреплением работает по принципу поощрения за правильные шаги, что со временем формирует у модели «политику поведения» .

Уэс Рот обращает внимание на мем Ноама Брауна (исследователя OpenAI), где сравниваются два подхода: «сложное статистическое обучение» (которое ведет к снижению результатов) и подход «просто добавь больше слоев» (stack more layers), который показывает рост . Это иронично подчеркивает, что масштабирование общих способностей модели часто эффективнее, чем попытки «подправить» её вручную под конкретную задачу.

В отличие от AlphaCode (от DeepMind), которая генерировала до 1 миллиона вариантов решения для выбора лучшего, модели OpenAI используют более эффективную выборку . Например, o1-ioi требовалось «всего» 10 000 сэмплов .

🔮 Будущее: исчезновение SaaS и сверхчеловеческий кодинг 20:51

Обсуждая долгосрочные последствия, Уэс Рот цитирует мнение Райли Брауна: в ближайшие пять лет главной угрозой для компаний, работающих по модели SaaS (программное обеспечение как услуга), станут их собственные клиенты . Имея доступ к моделям уровня o3 или будущим o4/o5, клиенты смогут сами создавать нужные им инструменты за 45 минут, вместо того чтобы платить за подписку .

Однако не все эксперты согласны с интерпретацией результатов OpenAI. Таниш Мэтью Абрахам (Tanishq Mathew Abraham) задается вопросом: если универсальная o3 побила специализированную o1-ioi, то насколько мощной была бы специализированная o3-ioi? . Остается открытым вопрос, стоит ли тратить ресурсы на специализацию моделей, если простое масштабирование (stacking more layers) дает такие результаты .

Ведущий заключает, что если текущий темп сохранится и OpenAI выпустит o4 в конце 2025 года, мы действительно можем увидеть появление «сверхчеловеческого кодера», что станет фундаментальным сдвигом во всех сферах человеческой деятельности .

💬 Цитаты

«Вместо того чтобы быть калькулятором, ИИ просто закодил свой собственный калькулятор, и ответ абсолютно верен.»

Уэс Рот 5:30

«Мы получим сверхчеловеческого кодера к концу 2025 года.»

Сэм Альтман (в пересказе Уэса Рота) 1:20

«Тонкая настройка запоминает, а обучение с подкреплением обобщает.»

Уэс Рот (цитируя заголовок статьи DeepMind) 12:52
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
LRM (Large Reasoning Models)
Большие модели рассуждений, обученные с помощью обучения с подкреплением для решения логических задач.
IOI (International Olympiad in Informatics)
Ежегодное соревнование по программированию среди школьников.
Reinforcement Learning (RL)
Метод машинного обучения, при котором модель обучается на основе системы наград и штрафов.
SaaS (Software as a Service)
Бизнес-модель продажи программного обеспечения по подписке.
📊 Цифры
🗓 Хронология
  1. декабрь 2023 Выход AlphaCode 2, показавшей результат в 85-м процентиле на Codeforces.
  2. сентябрь 2024 Запуск моделей серии o1 (o1-preview).
  3. январь 2025 Выход модели o3 mini high.
  4. конец 2025 Прогноз Сэма Альтмана о появлении сверхчеловеческого ИИ-кодера.
⚖️ Другая сторона
Искусственный интеллект OpenAI o3 Reinforcement Learning IOI Codeforces