Уэс Рот: «Запуск GPT-4.5 разочаровывает, но в этом есть скрытый смысл»

Релиз новой модели GPT-4.5 от OpenAI вызвал неоднозначную реакцию в ИИ-сообществе: вопреки ожиданиям, она не показала кратного роста в тестах на рассуждение, оказалась медленнее предшественников и беспрецедентно дорогой. ИИ-обозреватель Уэс Рот (Wes Roth) анализирует, означает ли это «закат» эпохи масштабирования или же перед нами специализированный инструмент, созданный для фундаментальных задач индустрии.

📉 Первое впечатление: медленнее, дороже, слабее? 0:00

Долгожданный выход GPT-4.5 шокировал пользователей, привыкших к тому, что каждая новая модель становится «быстрее, лучше и дешевле». По словам Уэса Рота, GPT-4.5 не демонстрирует прорыва в бенчмарках и заметно уступает специализированным «рассуждающим» моделям, таким как o3-mini .

Основные претензии к новой модели:

Низкая скорость: GPT-4.5 работает непривычно медленно, напоминая нейросети полуторагодовалой давности .
Заоблачная цена: Стоимость составляет $75 за миллион входных токенов и $150 за миллион выходных. Для сравнения: входной токен GPT-4o стоит $2.50, а у мощной модели o1 — $15 .
Скромный прогресс в галлюцинациях: Уровень галлюцинаций у GPT-4.5 составляет 0.19, что практически идентично показателю модели o1 (0.2) и лишь немного лучше GPT-4o (0.52) .

Уэс Рот отмечает, что во время четырехчасового стрима в день релиза модель не смогла его впечатлить: «Я не нашел той магии, о которой говорили люди» . Некоторые запросы в интерфейсе OpenAI Playground обходились автору в 20–29 центов за один вопрос .

🧠 Закон масштабирования: что означают «0.5» в названии 3:54

Для понимания логики OpenAI Уэс Рот ссылается на объяснение Андрея Карпатого (бывшего директора по ИИ в Tesla). В нумерации моделей OpenAI прирост на 0.5 традиционно означает увеличение вычислительных мощностей для предварительного обучения (pre-training compute) примерно в 10 раз .

Автор приводит историческую ретроспективу этой шкалы:

GPT-1: едва генерировала связный текст .
GPT-2: воспринималась как «запутанная игрушка» .
GPT-3.5: стала «моментом ChatGPT», когда мир осознал потенциал технологии. Вычислительная мощность выросла в 100 000 раз относительно первой версии .
GPT-4: породила дискуссии о «проблесках AGI» (сильного ИИ) .
GPT-4.5: использует в 10 раз больше вычислений, чем GPT-4 .

По мнению Уэса Рота, если при десятикратном увеличении затрат мы видим лишь незначительные улучшения, это может означать, что классический закон масштабирования (Scaling Laws) наткнулся на «стену» или вошел в стадию убывающей доходности .

🖋️ «Тонкая магия» и глубокое понимание контекста 8:32

Несмотря на слабые бенчмарки, GPT-4.5 демонстрирует превосходство в задачах, требующих абстрактного мышления и творческого синтеза. Уэс Рот подчеркивает, что разница между моделями часто бывает субтильной и проявляется только в сложных тестах .

Автор приводит пример с запросом на написание письма от лица Махатмы Ганди своей жене в поддержку «Электрона» как кандидата в президенты США :

GPT-3.5 пишет сухо и буквально, объясняя, что электрон хорош для энергетики, потому что он быстрый .
GPT-4 понимает контекст, пишет в стиле Ганди, упоминает принципы ненасилия и использует «Электрон» как метафору потенциала каждого существа .
GPT-4.5, как показывают тесты, еще лучше справляется с подобным «высоким стилем» и вживанием в роль .

В эксперименте с написанием сценария для мультсериала «Рик и Морти» GPT-4.5 идеально уловила характер персонажей и даже прием «разрушения четвертой стены», в то время как GPT-4o выдала плоский и скучный сюжет .

Также GPT-4.5 успешно справилась с созданием рэп-дисса от лица Эминема против Наполеона, используя сложные каламбуры (например, обыгрыш слов Empire и Pyre, а также Russia и Rush ya) . GPT-4o в этом тесте полностью провалилась, не сумев создать ни одной игры слов .

🏭 Стратегическая цель: «Фабрика синтетических данных» 20:11

Уэс Рот выдвигает гипотезу, что GPT-4.5 (кодовое имя Orion) не предназначена для массового пользователя или повседневного кодинга . По его мнению, это специализированная модель для генерации высококачественных синтетических данных, на которых будут обучаться будущие поколения «рассуждающих» моделей (o4, o5) .

Почему API стоит так дорого?

Защита от дистилляции: OpenAI не хочет, чтобы конкуренты дешево копировали знания GPT-4.5 для обучения своих моделей (как это было с GPT-4) .
Качество обучения: Улучшения в 4.5 могут казаться человеку незначительными, но они критически важны для алгоритмов обучения с подкреплением (Reinforcement Learning) .

🔮 Будущее ИИ: конец «бесплатных завтраков»? 22:21

Ситуация с GPT-4.5 ставит важный вопрос перед всей индустрией: можно ли продолжать прогресс, просто наращивая количество GPU от NVIDIA? .

Уэс Рот выделяет два сценария:

Пессимистичный: Если масштабирование вычислений больше не дает резкого скачка в интеллекте, ИИ останется лишь «умным помощником», а не заменой человеку в программировании или науке .
Оптимистичный: Мы переходим от простого наращивания весов к новым архитектурам «рассуждения» и обучения на данных, созданных моделями уровня GPT-4.5 .

Автор отмечает, что конкуренты не стоят на месте: xAI планирует увеличить вычислительные мощности в 10 раз для обучения следующих версий Grok , а Anthropic в модели Claude 3.7 ввела возможность задавать «бюджет на размышление» .

«Это не окончательный вердикт, но мы будем внимательно следить, куда это приведет», — резюмирует Уэс Рот .