GPT-5.5 против Opus 4.7: результаты тестирования на 8 реальных задачах

Автор протестировал возможности GPT-5.5 и Opus 4.7 в восьми прикладных задачах, от кодинга до финансовой аналитики. По результатам сравнения Opus 4.7 лидирует в дизайне и программировании, в то время как GPT-5.5 точнее справляется со сложными офисными отчетами .

💻 Программирование и веб-разработка 0:26

В категории кодинга модели создавали лендинги, интерфейсы приложений и 3D-сцены. Основное внимание автор уделил соблюдению инструкций по дизайну и отсутствию типичных ошибок ИИ — лишних градиентов и неуместных эмодзи .

Landing Page: GPT-5.5 создал страницу с качественной анимацией прокрутки и прозрачностью . Однако Opus 4.7 превзошел конкурента, самостоятельно внедрив 3JS для рендеринга интерактивной 3D-модели кольца с корректным освещением .
Email-клиент: Задача заключалась в создании интерфейса уровня Superhuman или Linear . GPT-5.5 использовал стандартные иконки и не смог активировать командную палитру через сочетание клавиш . Opus 4.7 создал более «премиальный» интерфейс с работающим поиском по отправителю и анимированными кнопками клавиатуры .
Аналитический дашборд: В этом раунде GPT-5.5 победил благодаря чистому дизайну и обновлению заказов в реальном времени . Opus 4.7 допустил ошибку при рендеринге карты США, исказив очертания штатов .
3D-сцена и игры: При создании модели животной клетки на 3JS обе модели справились успешно, но Opus 4.7 обеспечил более удобное выделение органоидов при наведении курсора . В разработке классической игры Asteroids Opus также выиграл за счет плавности управления и добавления звуковых эффектов .

📊 Офисные задачи и анализ данных 18:31

Для тестирования офисных навыков автор использовал шесть CSV-файлов с тысячами строк данных, имитирующих отчеты из HubSpot и Salesforce . Модели должны были рассчитать финансовые показатели и оформить их в виде презентации.

Маркетинговый отчет: GPT-5.5 создал визуально привлекательный дашборд с верными расчетами ARR и стоимости привлечения клиента (CPA) . Однако модель не заметила опечатку в данных, где расходы на TikTok были разделены на две разные строки . Opus 4.7 успешно объединил эти данные, но уступил в качестве визуализации .
Финансовый пакет для совета директоров: В отчет включили данные о выручке на 5 млн долларов с разделением на фактически признанный доход в 3,4 млн . GPT-5.5 точно разделил эти потоки и обнаружил «пасхалку» — отсутствие оттока клиентов (churn) в исходных файлах .
Галлюцинации Opus 4.7: Модель Anthropic полностью провалила финансовый тест, выдумав данные об оттоке 73 клиентов на сумму 422 000 долларов . Несмотря на отсутствие такой информации в файлах, Opus интегрировал эти цифры во все разделы отчета .

🏆 Итоговые результаты и специализация 25:49

Несмотря на общую победу Opus 4.7 по количеству выигранных раундов за счет дизайна и кода, автор выделил четкую специализацию для каждой нейросети .

Эффективность моделей по типам задач:

Программирование и UI-дизайн: Opus 4.7. Модель лучше чувствует нюансы взаимодействия с пользователем и современную эстетику.
Деловое письмо: GPT-5.5 показал более стабильные результаты в текстовых задачах.
Анализ данных и сложные отчеты: GPT-5.5. Модель OpenAI продемонстрировала высокую устойчивость к галлюцинациям и внимательность к деталям в таблицах .

Google Gemini использовался в качестве нейтрального судьи, однако в ряде случаев он не смог корректно оценить визуальные элементы из-за ошибок рендеринга .