В мире технологий продолжаются бурные дискуссии вокруг новой модели o3 от OpenAI и того, приблизились ли мы вплотную к созданию сильного искусственного интеллекта (AGI). Популярный ИИ-аналитик Уэс Рот в своём новом видео разбирает концепцию «рваного фронтира» (Jagged Frontier), объясняет, почему провалы нейросетей в простых задачах не означают их слабость, и анализирует последние достижения в области математического мышления машин.
🌌 От созвездия Ориона к модели o3 0:00
В сообществе любителей ИИ долгое время обсуждали загадочные намёки Сэма Альтмана на модель под кодовым названием Orion . Альтман публиковал сообщения о своей любви к зимним созвездиям, что многие интерпретировали как анонс новой мощной модели этой зимой. Технически выпуск o3 состоялся именно в этот период, однако, как отмечает Уэс Рот, o3 и Orion — это не одно и то же .
Вопрос о том, является ли o3 полноценным AGI, вызывает ожесточённые споры:
- По мнению Адама Д’Анджело (основатель Quora и член совета директоров OpenAI), рынок до сих пор не заложил в цены грядущее появление AGI, хотя результаты o3 уже публичны .
- Илон Маск, комментируя это мнение, утверждает, что ИИ в конечном итоге сделает деньги бессмысленными, хотя он по-прежнему настроен скептически к руководству OpenAI .
- Сам Уэс Рот провел опрос среди своей аудитории, пытаясь выяснить, считается ли ИИ сегодня «умнее среднего человека» в обычных офисных задачах: планировании, письме и базовом решении проблем .
🧩 Тест Arc-AGI: мерило истинного интеллекта 2:37
Одним из самых авторитетных критиков текущего прогресса является Франсуа Шолле, создатель бенчмарка Arc-AGI . Его тест направлен на то, чтобы отличить простую тренированность (запоминание данных) от способности к обобщению (generalization) — того самого компонента «G» в аббревиатуре AGI .
Основные тезисы Шолле и его сторонников:
- У нас уже есть «узкий» сверхинтеллект, способный побеждать людей в шахматы или го, но нам не хватает универсальности .
- Шолле утверждает, что o3 — это огромная веха, но всё же не AGI .
- По мнению Шолле, необходимо постоянно усложнять тесты, создавая Arc-AGI 2.0, 3.0 и так далее, чтобы отслеживать реальный прогресс .
Уэс Рот считает, что отсутствие единого определения AGI мешает консенсусу: пока один человек видит в o3 прорыв, другой указывает на неспособность модели решить визуальную головоломку и отрицает её интеллект .
📉 Концепция «рваного фронтира» ИИ 6:17
Ключевая идея выпуска, заимствованная у профессора Итана Моллика, заключается в существовании «рваного фронтира» (Jagged Frontier) возможностей ИИ . В отличие от человека, чьи навыки обычно развиваются равномерно (если вы понимаете высшую математику, вы наверняка умеете завязывать шнурки), способности ИИ крайне диспропорциональны.
Уэс Рот наглядно описывает эту аномалию:
- Человеческая кривая: задачи одинаковой сложности даются нам примерно одинаково. Мы ожидаем от выпускника вуза определённого уровня во всех базовых сферах .
- Кривая ИИ: модель может написать сложнейший код для симуляции чёрных дыр за минуты, но при этом запнуться на вопросе «сколько букв 'r' в слове strawberry» .
По мнению Рота, критики часто используют эти «рваные края» (ошибки в простых вещах), чтобы объявить ИИ бесполезным или «тупым» . Однако автор ставит перед зрителями философский вопрос: «Если ИИ вылечит все формы рака, но не сможет написать слово „рак“ задом наперёд, будем ли мы называть его умным или глупым?» .
🧱 Стена масштабирования или новый путь? 15:34
В последнее время в таких изданиях, как Wall Street Journal, появились статьи о том, что масштабирование ИИ «уперлось в стену» из-за нехватки данных и огромных затрат . Уэс Рот и Итан Моллик не согласны с этим утверждением, указывая на смену парадигмы .
Новый подход называется «вычисления во время логического вывода» (test-time compute) :
- Суть: вместо того чтобы просто увеличивать базу данных для обучения, модели дают больше времени и вычислительных ресурсов на «обдумывание» конкретного ответа.
- Цепочка мыслей (Chain of Thought): модель прописывает шаги решения в скрытом черновике перед выдачей окончательного ответа .
- Результат o3: модель достигла 88% точности в Arc-AGI, но для этого ей потребовалось использовать 5,7 миллиарда токенов .
- Стоимость: такой запуск для обычного пользователя стоил бы около $300 000 в розничных ценах за одно решение .
Джейсон Вэй, исследователь из OpenAI, подчеркивает, что прогресс от o1 до o3 занял всего три месяца . Это доказывает, что новая парадигма обучения с подкреплением (reinforcement learning) позволяет ИИ развиваться гораздо быстрее, чем старая модель выпуска обновлений раз в 1–2 года .
🧮 Прорыв в высшей математике: Frontier Math 20:54
Для тестирования o3 был использован новый сверхсложный бенчмарк Frontier Math . Эти задачи настолько трудны, что ведущие математики, включая лауреата Филдсовской премии Теренса Тао, считали, что ИИ не сможет их решить еще несколько лет .
Поразительные цифры из транскрипта:
- Предыдущие лучшие модели (Claude 3.5 Sonnet, Gemini 1.5 Pro) имели точность менее 2% на этом тесте .
- Модель o3 сразу показала результат в 25,2% .
- На тесте AIME (математический уровень для одаренных школьников) o3 набрала 96,7%, практически достигнув максимума .
Несмотря на эти успехи, o3 всё еще не может решить некоторые визуальные задачи из Arc-AGI . Уэс Рот объясняет это тем, что ИИ «видит» задачу не как картинку, а как матрицу чисел в формате JSON, что усложняет пространственное восприятие . Тем не менее, он призывает не обесценивать прогресс из-за точечных неудач и признать, что масштабирование не остановилось, а просто нашло новый вектор развития .