Wes Roth о триумфе o3 Pro: «Модель в одиночку уничтожила тест Apple на иллюзию мышления»

Компания OpenAI представила новую модель o3 Pro, которая, по мнению экспертов, меняет правила игры в области искусственного интеллекта. Новинка не просто обновляет линейку, а демонстрирует качественный скачок в решении сложнейших задач, с которыми не справлялись предыдущие версии, включая нашумевшие тесты Apple на «иллюзию мышления».

🚀 Прорыв OpenAI: o3 Pro и новая ценовая политика 0:00

OpenAI официально выпустила o3 Pro, и эта модель уже начала разрушать сложившиеся представления о пределах возможностей нейросетей . Одновременно с этим компания радикально снизила стоимость оригинальной модели o3 — цена упала на 80%, что делает одну из самых мощных моделей прошлого поколения гораздо доступнее для широкого круга задач .

Однако o3 Pro требует иного подхода к взаимодействию. Ведущий канала Wes Roth отмечает, что пользователям стоит отказаться от привычных шаблонов работы с ИИ:

Эту модель следует воспринимать не как чат-бота для коротких реплик, а как полноценный генератор аналитических отчетов .
Процесс решения сложных задач может занимать значительное время — например, в одном из тестов модели потребовалось почти 19 минут на формирование ответа .

🧩 Разрушение «Иллюзии мышления» и решение Ханойской башни 0:51

Главным испытанием для o3 Pro стал тест из недавней работы исследователей Apple под названием «Иллюзия мышления» (The Illusion of Thinking), которая ранее стала виральной в профессиональном сообществе . В этой статье утверждалось, что современные рассуждающие модели (reasoning models) терпят крах при усложнении классических задач.

Одной из таких задач была «Ханойская башня» с 10 дисками. Суть головоломки заключается в перемещении дисков с одного колышка на другой по строгим правилам: за раз можно брать только один диск и нельзя класть больший диск на меньший .

Критический уровень сложности:

Для башни из 10 дисков оптимальное решение требует 1023 шагов .
Предыдущие модели при достижении такого уровня сложности показывали точность, близкую к 0% .
Wes Roth предполагает, что неудачи моделей в работе Apple могли быть связаны не с отсутствием логики, а с ограничениями длины контекстного окна .

Модель o3 Pro смогла решить эту задачу «с одной попытки» (one-shot). Потратив 19 минут на размышления, ИИ выдал полную последовательность из 1023 ходов . Ведущий проверил начало и конец последовательности, подтвердив, что финальный диск оказался на правильном колышке (согласно условиям задачи, позиции индексируются с нуля, где 2 — правый колышок) . Таким образом, утверждает автор видео, o3 Pro фактически опровергла тезис Apple об «иллюзии мышления» .

🏗️ От теории к практике: рекурсивное самосовершенствование 3:27

Wes Roth провел эксперимент по применению o3 Pro в сфере разработки программного обеспечения и машинного обучения. Он загрузил в модель научную статью «Agents of Change», в которой описывается фреймворк самообучающихся агентов (таких как «аналитик», «стратег», «кодировщик») для игры в «Колонизаторы» (Settlers of Catan) .

Задачей модели было адаптировать эту архитектуру для совершенно другой игры — AI-версии «Дипломатии» (Diplomacy) с открытым исходным кодом от Every Ink .

Результаты тестирования:

Модель потратила 13 минут на анализ и составление подробного плана адаптации .
Она предложила создать систему, где один агент анализирует отчеты об ошибках, а другой выявляет слабые места в игровом процессе .
o3 Pro выдала пошаговую инструкцию: от форка репозитория на GitHub до архитектуры проекта .
За 15 минут и 21 секунду модель написала код всего каркаса (scaffold) проекта, распределив функционал по отдельным файлам, чтобы избежать создания перегруженного 30-тысячестрочного монолита .

По словам Wes Roth, способности модели воспроизводить сложные концепции из научных работ и применять их к новым задачам без участия человека выглядят «пугающе впечатляющими» .

🧠 Система, а не просто модель: мнение Ben Hilac 8:15

Ведущий цитирует статью Бена Хилака (Ben Hilac) из проекта Latent Space под названием «Бог жаждет контекста» . Хилак разделяет рынок ИИ на два типа инструментов:

Быстрые модели (типа 4o): Идеальны для чата, напоминают «умных друзей» для быстрых ответов .
Гигантские и медленные модели (типа o3 Pro): Предназначены для глубокого анализа, критики сложных систем и достижения максимума интеллектуальных способностей .

Основная мысль Хилака, которую поддерживает Wes Roth, заключается в том, что o3 Pro — это целая система, а не просто нейросеть из выпадающего меню. Она незаметно использует целый набор инструментов: поиск в вебе, анализ файлов, Python-скрипты и визуальное распознавание .

Хилак провел эксперимент, загрузив в o3 Pro всю историю планирования, цели и даже голосовые заметки своего стартапа Raindrop.ai . По его утверждению, в то время как базовая o3 выдавала «правдоподобный» план, o3 Pro сформировала настолько конкретную и глубокую стратегию с указанием приоритетов и того, что следует сократить, что это заставило компанию пересмотреть свои взгляды на будущее . По мнению Хилака, такие результаты невозможно адекватно оценить стандартными бенчмарками, так как они касаются качества принимаемых решений, а не просто скорости ответов .

🛡️ Ограничения и риски 11:49

Несмотря на триумф в логических тестах, Wes Roth отмечает существующие проблемы интеграции ИИ в реальные рабочие процессы. По мнению эксперта, текущие модели напоминают «12-летнего гения с невероятно высоким IQ», который поступил в колледж: он может быть умнее всех, но остается бесполезным сотрудником, если не умеет встраиваться в социальную и рабочую структуру .

Также обсуждается вопрос безопасности:

Спустя всего несколько часов после релиза известный исследователь под псевдонимом Plenny уже смог «взломать» (jailbreak) модель, обойдя встроенные ограничения .
Wes Roth планирует взять интервью у Plenny, чтобы обсудить уязвимости системы .

В заключение автор подчеркивает: чтобы увидеть истинную мощь o3 Pro, нужно перестать задавать ей глупые вопросы вроде «сколько букв 'r' в слове strawberry» . Этой «бестии» нужно скармливать самые запутанные и объемные данные, требующие многоэтапного анализа .