# Wes Roth о триумфе o3 Pro: «Модель в одиночку уничтожила тест Apple на иллюзию мышления»

Источник: https://www.youtube.com/watch?v=vmrm90u0dHs
Канал: Wes Roth
Опубликовано: 10.06.2025

---

Компания OpenAI представила новую модель o3 Pro, которая, по мнению экспертов, меняет правила игры в области искусственного интеллекта. Новинка не просто обновляет линейку, а демонстрирует качественный скачок в решении сложнейших задач, с которыми не справлялись предыдущие версии, включая нашумевшие тесты Apple на «иллюзию мышления».

## 🚀 Прорыв OpenAI: o3 Pro и новая ценовая политика
[[JUMP:0:00]]

OpenAI официально выпустила o3 Pro, и эта модель уже начала разрушать сложившиеся представления о пределах возможностей нейросетей [0:00]. Одновременно с этим компания радикально снизила стоимость оригинальной модели o3 — цена упала на 80%, что делает одну из самых мощных моделей прошлого поколения гораздо доступнее для широкого круга задач [0:12].

Однако o3 Pro требует иного подхода к взаимодействию. Ведущий канала Wes Roth отмечает, что пользователям стоит отказаться от привычных шаблонов работы с ИИ:

*   Эту модель следует воспринимать не как чат-бота для коротких реплик, а как полноценный генератор аналитических отчетов [0:25].
*   Процесс решения сложных задач может занимать значительное время — например, в одном из тестов модели потребовалось почти 19 минут на формирование ответа [0:37].

## 🧩 Разрушение «Иллюзии мышления» и решение Ханойской башни
[[JUMP:0:51]]

Главным испытанием для o3 Pro стал тест из недавней работы исследователей Apple под названием «Иллюзия мышления» (The Illusion of Thinking), которая ранее стала виральной в профессиональном сообществе [0:51]. В этой статье утверждалось, что современные рассуждающие модели (reasoning models) терпят крах при усложнении классических задач.

Одной из таких задач была «Ханойская башня» с 10 дисками. Суть головоломки заключается в перемещении дисков с одного колышка на другой по строгим правилам: за раз можно брать только один диск и нельзя класть больший диск на меньший [1:03].

Критический уровень сложности:

1.  Для башни из 10 дисков оптимальное решение требует 1023 шагов [1:29].
2.  Предыдущие модели при достижении такого уровня сложности показывали точность, близкую к 0% [1:42].
3.  Wes Roth предполагает, что неудачи моделей в работе Apple могли быть связаны не с отсутствием логики, а с ограничениями длины контекстного окна [1:55].

Модель o3 Pro смогла решить эту задачу «с одной попытки» (one-shot). Потратив 19 минут на размышления, ИИ выдал полную последовательность из 1023 ходов [2:23]. Ведущий проверил начало и конец последовательности, подтвердив, что финальный диск оказался на правильном колышке (согласно условиям задачи, позиции индексируются с нуля, где 2 — правый колышок) [2:36]. Таким образом, утверждает автор видео, o3 Pro фактически опровергла тезис Apple об «иллюзии мышления» [2:48].

## 🏗️ От теории к практике: рекурсивное самосовершенствование
[[JUMP:3:27]]

Wes Roth провел эксперимент по применению o3 Pro в сфере разработки программного обеспечения и машинного обучения. Он загрузил в модель научную статью «Agents of Change», в которой описывается фреймворк самообучающихся агентов (таких как «аналитик», «стратег», «кодировщик») для игры в «Колонизаторы» (Settlers of Catan) [3:27].

Задачей модели было адаптировать эту архитектуру для совершенно другой игры — AI-версии «Дипломатии» (Diplomacy) с открытым исходным кодом от Every Ink [4:19].

Результаты тестирования:

*   Модель потратила 13 минут на анализ и составление подробного плана адаптации [4:33].
*   Она предложила создать систему, где один агент анализирует отчеты об ошибках, а другой выявляет слабые места в игровом процессе [4:46].
*   o3 Pro выдала пошаговую инструкцию: от форка репозитория на GitHub до архитектуры проекта [4:59].
*   За 15 минут и 21 секунду модель написала код всего каркаса (scaffold) проекта, распределив функционал по отдельным файлам, чтобы избежать создания перегруженного 30-тысячестрочного монолита [5:13].

По словам Wes Roth, способности модели воспроизводить сложные концепции из научных работ и применять их к новым задачам без участия человека выглядят «пугающе впечатляющими» [5:51].

## 🧠 Система, а не просто модель: мнение Ben Hilac
[[JUMP:8:15]]

Ведущий цитирует статью Бена Хилака (Ben Hilac) из проекта Latent Space под названием «Бог жаждет контекста» [8:15]. Хилак разделяет рынок ИИ на два типа инструментов:

1.  **Быстрые модели (типа 4o):** Идеальны для чата, напоминают «умных друзей» для быстрых ответов [8:28].
2.  **Гигантские и медленные модели (типа o3 Pro):** Предназначены для глубокого анализа, критики сложных систем и достижения максимума интеллектуальных способностей [8:41].

Основная мысль Хилака, которую поддерживает Wes Roth, заключается в том, что o3 Pro — это целая система, а не просто нейросеть из выпадающего меню. Она незаметно использует целый набор инструментов: поиск в вебе, анализ файлов, Python-скрипты и визуальное распознавание [7:35].

Хилак провел эксперимент, загрузив в o3 Pro всю историю планирования, цели и даже голосовые заметки своего стартапа Raindrop.ai [10:27]. По его утверждению, в то время как базовая o3 выдавала «правдоподобный» план, o3 Pro сформировала настолько конкретную и глубокую стратегию с указанием приоритетов и того, что следует сократить, что это заставило компанию пересмотреть свои взгляды на будущее [10:53]. По мнению Хилака, такие результаты невозможно адекватно оценить стандартными бенчмарками, так как они касаются качества принимаемых решений, а не просто скорости ответов [11:07].

## 🛡️ Ограничения и риски
[[JUMP:11:49]]

Несмотря на триумф в логических тестах, Wes Roth отмечает существующие проблемы интеграции ИИ в реальные рабочие процессы. По мнению эксперта, текущие модели напоминают «12-летнего гения с невероятно высоким IQ», который поступил в колледж: он может быть умнее всех, но остается бесполезным сотрудником, если не умеет встраиваться в социальную и рабочую структуру [11:49].

Также обсуждается вопрос безопасности:

*   Спустя всего несколько часов после релиза известный исследователь под псевдонимом Plenny уже смог «взломать» (jailbreak) модель, обойдя встроенные ограничения [12:25].
*   Wes Roth планирует взять интервью у Plenny, чтобы обсудить уязвимости системы [12:38].

В заключение автор подчеркивает: чтобы увидеть истинную мощь o3 Pro, нужно перестать задавать ей глупые вопросы вроде «сколько букв 'r' в слове strawberry» [12:13]. Этой «бестии» нужно скармливать самые запутанные и объемные данные, требующие многоэтапного анализа [12:52].