Компания OpenAI представила новую модель o3 Pro, которая, по мнению экспертов, меняет правила игры в области искусственного интеллекта. Новинка не просто обновляет линейку, а демонстрирует качественный скачок в решении сложнейших задач, с которыми не справлялись предыдущие версии, включая нашумевшие тесты Apple на «иллюзию мышления».
🚀 Прорыв OpenAI: o3 Pro и новая ценовая политика 0:00
OpenAI официально выпустила o3 Pro, и эта модель уже начала разрушать сложившиеся представления о пределах возможностей нейросетей . Одновременно с этим компания радикально снизила стоимость оригинальной модели o3 — цена упала на 80%, что делает одну из самых мощных моделей прошлого поколения гораздо доступнее для широкого круга задач .
Однако o3 Pro требует иного подхода к взаимодействию. Ведущий канала Wes Roth отмечает, что пользователям стоит отказаться от привычных шаблонов работы с ИИ:
- Эту модель следует воспринимать не как чат-бота для коротких реплик, а как полноценный генератор аналитических отчетов .
- Процесс решения сложных задач может занимать значительное время — например, в одном из тестов модели потребовалось почти 19 минут на формирование ответа .
🧩 Разрушение «Иллюзии мышления» и решение Ханойской башни 0:51
Главным испытанием для o3 Pro стал тест из недавней работы исследователей Apple под названием «Иллюзия мышления» (The Illusion of Thinking), которая ранее стала виральной в профессиональном сообществе . В этой статье утверждалось, что современные рассуждающие модели (reasoning models) терпят крах при усложнении классических задач.
Одной из таких задач была «Ханойская башня» с 10 дисками. Суть головоломки заключается в перемещении дисков с одного колышка на другой по строгим правилам: за раз можно брать только один диск и нельзя класть больший диск на меньший .
Критический уровень сложности:
- Для башни из 10 дисков оптимальное решение требует 1023 шагов .
- Предыдущие модели при достижении такого уровня сложности показывали точность, близкую к 0% .
- Wes Roth предполагает, что неудачи моделей в работе Apple могли быть связаны не с отсутствием логики, а с ограничениями длины контекстного окна .
Модель o3 Pro смогла решить эту задачу «с одной попытки» (one-shot). Потратив 19 минут на размышления, ИИ выдал полную последовательность из 1023 ходов . Ведущий проверил начало и конец последовательности, подтвердив, что финальный диск оказался на правильном колышке (согласно условиям задачи, позиции индексируются с нуля, где 2 — правый колышок) . Таким образом, утверждает автор видео, o3 Pro фактически опровергла тезис Apple об «иллюзии мышления» .
🏗️ От теории к практике: рекурсивное самосовершенствование 3:27
Wes Roth провел эксперимент по применению o3 Pro в сфере разработки программного обеспечения и машинного обучения. Он загрузил в модель научную статью «Agents of Change», в которой описывается фреймворк самообучающихся агентов (таких как «аналитик», «стратег», «кодировщик») для игры в «Колонизаторы» (Settlers of Catan) .
Задачей модели было адаптировать эту архитектуру для совершенно другой игры — AI-версии «Дипломатии» (Diplomacy) с открытым исходным кодом от Every Ink .
Результаты тестирования:
- Модель потратила 13 минут на анализ и составление подробного плана адаптации .
- Она предложила создать систему, где один агент анализирует отчеты об ошибках, а другой выявляет слабые места в игровом процессе .
- o3 Pro выдала пошаговую инструкцию: от форка репозитория на GitHub до архитектуры проекта .
- За 15 минут и 21 секунду модель написала код всего каркаса (scaffold) проекта, распределив функционал по отдельным файлам, чтобы избежать создания перегруженного 30-тысячестрочного монолита .
По словам Wes Roth, способности модели воспроизводить сложные концепции из научных работ и применять их к новым задачам без участия человека выглядят «пугающе впечатляющими» .
🧠 Система, а не просто модель: мнение Ben Hilac 8:15
Ведущий цитирует статью Бена Хилака (Ben Hilac) из проекта Latent Space под названием «Бог жаждет контекста» . Хилак разделяет рынок ИИ на два типа инструментов:
- Быстрые модели (типа 4o): Идеальны для чата, напоминают «умных друзей» для быстрых ответов .
- Гигантские и медленные модели (типа o3 Pro): Предназначены для глубокого анализа, критики сложных систем и достижения максимума интеллектуальных способностей .
Основная мысль Хилака, которую поддерживает Wes Roth, заключается в том, что o3 Pro — это целая система, а не просто нейросеть из выпадающего меню. Она незаметно использует целый набор инструментов: поиск в вебе, анализ файлов, Python-скрипты и визуальное распознавание .
Хилак провел эксперимент, загрузив в o3 Pro всю историю планирования, цели и даже голосовые заметки своего стартапа Raindrop.ai . По его утверждению, в то время как базовая o3 выдавала «правдоподобный» план, o3 Pro сформировала настолько конкретную и глубокую стратегию с указанием приоритетов и того, что следует сократить, что это заставило компанию пересмотреть свои взгляды на будущее . По мнению Хилака, такие результаты невозможно адекватно оценить стандартными бенчмарками, так как они касаются качества принимаемых решений, а не просто скорости ответов .
🛡️ Ограничения и риски 11:49
Несмотря на триумф в логических тестах, Wes Roth отмечает существующие проблемы интеграции ИИ в реальные рабочие процессы. По мнению эксперта, текущие модели напоминают «12-летнего гения с невероятно высоким IQ», который поступил в колледж: он может быть умнее всех, но остается бесполезным сотрудником, если не умеет встраиваться в социальную и рабочую структуру .
Также обсуждается вопрос безопасности:
- Спустя всего несколько часов после релиза известный исследователь под псевдонимом Plenny уже смог «взломать» (jailbreak) модель, обойдя встроенные ограничения .
- Wes Roth планирует взять интервью у Plenny, чтобы обсудить уязвимости системы .
В заключение автор подчеркивает: чтобы увидеть истинную мощь o3 Pro, нужно перестать задавать ей глупые вопросы вроде «сколько букв 'r' в слове strawberry» . Этой «бестии» нужно скармливать самые запутанные и объемные данные, требующие многоэтапного анализа .