Wes Roth о триумфе o3 Pro: «Модель в одиночку уничтожила тест Apple на иллюзию мышления»

Wes Roth 90,5 тыс. 13 мин 4 мин 10.06.2025
Главное

Компания OpenAI представила новую модель o3 Pro, которая, по мнению экспертов, меняет правила игры в области искусственного интеллекта. Новинка не просто обновляет линейку, а демонстрирует качественный скачок в решении сложнейших задач, с которыми не справлялись предыдущие версии, включая нашумевшие тесты Apple на «иллюзию мышления».

🚀 Прорыв OpenAI: o3 Pro и новая ценовая политика 0:00

OpenAI официально выпустила o3 Pro, и эта модель уже начала разрушать сложившиеся представления о пределах возможностей нейросетей . Одновременно с этим компания радикально снизила стоимость оригинальной модели o3 — цена упала на 80%, что делает одну из самых мощных моделей прошлого поколения гораздо доступнее для широкого круга задач .

Однако o3 Pro требует иного подхода к взаимодействию. Ведущий канала Wes Roth отмечает, что пользователям стоит отказаться от привычных шаблонов работы с ИИ:

🧩 Разрушение «Иллюзии мышления» и решение Ханойской башни 0:51

Главным испытанием для o3 Pro стал тест из недавней работы исследователей Apple под названием «Иллюзия мышления» (The Illusion of Thinking), которая ранее стала виральной в профессиональном сообществе . В этой статье утверждалось, что современные рассуждающие модели (reasoning models) терпят крах при усложнении классических задач.

Одной из таких задач была «Ханойская башня» с 10 дисками. Суть головоломки заключается в перемещении дисков с одного колышка на другой по строгим правилам: за раз можно брать только один диск и нельзя класть больший диск на меньший .

Критический уровень сложности:

  1. Для башни из 10 дисков оптимальное решение требует 1023 шагов .
  2. Предыдущие модели при достижении такого уровня сложности показывали точность, близкую к 0% .
  3. Wes Roth предполагает, что неудачи моделей в работе Apple могли быть связаны не с отсутствием логики, а с ограничениями длины контекстного окна .

Модель o3 Pro смогла решить эту задачу «с одной попытки» (one-shot). Потратив 19 минут на размышления, ИИ выдал полную последовательность из 1023 ходов . Ведущий проверил начало и конец последовательности, подтвердив, что финальный диск оказался на правильном колышке (согласно условиям задачи, позиции индексируются с нуля, где 2 — правый колышок) . Таким образом, утверждает автор видео, o3 Pro фактически опровергла тезис Apple об «иллюзии мышления» .

🏗️ От теории к практике: рекурсивное самосовершенствование 3:27

Wes Roth провел эксперимент по применению o3 Pro в сфере разработки программного обеспечения и машинного обучения. Он загрузил в модель научную статью «Agents of Change», в которой описывается фреймворк самообучающихся агентов (таких как «аналитик», «стратег», «кодировщик») для игры в «Колонизаторы» (Settlers of Catan) .

Задачей модели было адаптировать эту архитектуру для совершенно другой игры — AI-версии «Дипломатии» (Diplomacy) с открытым исходным кодом от Every Ink .

Результаты тестирования:

По словам Wes Roth, способности модели воспроизводить сложные концепции из научных работ и применять их к новым задачам без участия человека выглядят «пугающе впечатляющими» .

🧠 Система, а не просто модель: мнение Ben Hilac 8:15

Ведущий цитирует статью Бена Хилака (Ben Hilac) из проекта Latent Space под названием «Бог жаждет контекста» . Хилак разделяет рынок ИИ на два типа инструментов:

  1. Быстрые модели (типа 4o): Идеальны для чата, напоминают «умных друзей» для быстрых ответов .
  2. Гигантские и медленные модели (типа o3 Pro): Предназначены для глубокого анализа, критики сложных систем и достижения максимума интеллектуальных способностей .

Основная мысль Хилака, которую поддерживает Wes Roth, заключается в том, что o3 Pro — это целая система, а не просто нейросеть из выпадающего меню. Она незаметно использует целый набор инструментов: поиск в вебе, анализ файлов, Python-скрипты и визуальное распознавание .

Хилак провел эксперимент, загрузив в o3 Pro всю историю планирования, цели и даже голосовые заметки своего стартапа Raindrop.ai . По его утверждению, в то время как базовая o3 выдавала «правдоподобный» план, o3 Pro сформировала настолько конкретную и глубокую стратегию с указанием приоритетов и того, что следует сократить, что это заставило компанию пересмотреть свои взгляды на будущее . По мнению Хилака, такие результаты невозможно адекватно оценить стандартными бенчмарками, так как они касаются качества принимаемых решений, а не просто скорости ответов .

🛡️ Ограничения и риски 11:49

Несмотря на триумф в логических тестах, Wes Roth отмечает существующие проблемы интеграции ИИ в реальные рабочие процессы. По мнению эксперта, текущие модели напоминают «12-летнего гения с невероятно высоким IQ», который поступил в колледж: он может быть умнее всех, но остается бесполезным сотрудником, если не умеет встраиваться в социальную и рабочую структуру .

Также обсуждается вопрос безопасности:

В заключение автор подчеркивает: чтобы увидеть истинную мощь o3 Pro, нужно перестать задавать ей глупые вопросы вроде «сколько букв 'r' в слове strawberry» . Этой «бестии» нужно скармливать самые запутанные и объемные данные, требующие многоэтапного анализа .

💬 Цитаты

«Для большинства этих моделей рассуждения вы почти наверняка захотите подойти к ним как к генератору отчетов, а не как к чат-боту.»

«o3 Pro решила эту проблему одним махом, тем самым разрушив «иллюзию мышления», если хотите.»

«План, который дала o3 Pro, был настолько конкретным и обоснованным, что на самом деле изменил наше представление о нашем будущем.»

Бен Хилак 11:07
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
One-shot (решение с одной попытки)
Способность модели выдать правильный ответ на сложную задачу без предварительных примеров или уточнений в рамках одного запроса.
Ханойская башня
Классическая математическая головоломка, используемая для проверки логического мышления и способности к планированию.
Reasoning models (рассуждающие модели)
Класс нейросетей, которые тратят дополнительное время на «обдумывание» задачи перед выдачей ответа.
Paper Bench
Бенчмарк для проверки способности ИИ воспроизводить исследования в области машинного обучения.
📊 Цифры
🗓 Хронология
  1. Декабрь 2024 Релиз моделей o3 и o3 Pro от OpenAI.
  2. Конец 2024 Выход статьи Apple «The Illusion of Thinking», критикующей логику ИИ.
⚖️ Другая сторона
Искусственный интеллект OpenAI o3 Pro Ханойская башня Wes Roth Apple