Автор протестировал возможности GPT-5.5 и Opus 4.7 в восьми прикладных задачах, от кодинга до финансовой аналитики. По результатам сравнения Opus 4.7 лидирует в дизайне и программировании, в то время как GPT-5.5 точнее справляется со сложными офисными отчетами .
💻 Программирование и веб-разработка 0:26
В категории кодинга модели создавали лендинги, интерфейсы приложений и 3D-сцены. Основное внимание автор уделил соблюдению инструкций по дизайну и отсутствию типичных ошибок ИИ — лишних градиентов и неуместных эмодзи .
- Landing Page: GPT-5.5 создал страницу с качественной анимацией прокрутки и прозрачностью . Однако Opus 4.7 превзошел конкурента, самостоятельно внедрив 3JS для рендеринга интерактивной 3D-модели кольца с корректным освещением .
- Email-клиент: Задача заключалась в создании интерфейса уровня Superhuman или Linear . GPT-5.5 использовал стандартные иконки и не смог активировать командную палитру через сочетание клавиш . Opus 4.7 создал более «премиальный» интерфейс с работающим поиском по отправителю и анимированными кнопками клавиатуры .
- Аналитический дашборд: В этом раунде GPT-5.5 победил благодаря чистому дизайну и обновлению заказов в реальном времени . Opus 4.7 допустил ошибку при рендеринге карты США, исказив очертания штатов .
- 3D-сцена и игры: При создании модели животной клетки на 3JS обе модели справились успешно, но Opus 4.7 обеспечил более удобное выделение органоидов при наведении курсора . В разработке классической игры Asteroids Opus также выиграл за счет плавности управления и добавления звуковых эффектов .
📊 Офисные задачи и анализ данных 18:31
Для тестирования офисных навыков автор использовал шесть CSV-файлов с тысячами строк данных, имитирующих отчеты из HubSpot и Salesforce . Модели должны были рассчитать финансовые показатели и оформить их в виде презентации.
- Маркетинговый отчет: GPT-5.5 создал визуально привлекательный дашборд с верными расчетами ARR и стоимости привлечения клиента (CPA) . Однако модель не заметила опечатку в данных, где расходы на TikTok были разделены на две разные строки . Opus 4.7 успешно объединил эти данные, но уступил в качестве визуализации .
- Финансовый пакет для совета директоров: В отчет включили данные о выручке на 5 млн долларов с разделением на фактически признанный доход в 3,4 млн . GPT-5.5 точно разделил эти потоки и обнаружил «пасхалку» — отсутствие оттока клиентов (churn) в исходных файлах .
- Галлюцинации Opus 4.7: Модель Anthropic полностью провалила финансовый тест, выдумав данные об оттоке 73 клиентов на сумму 422 000 долларов . Несмотря на отсутствие такой информации в файлах, Opus интегрировал эти цифры во все разделы отчета .
🏆 Итоговые результаты и специализация 25:49
Несмотря на общую победу Opus 4.7 по количеству выигранных раундов за счет дизайна и кода, автор выделил четкую специализацию для каждой нейросети .
Эффективность моделей по типам задач:
- Программирование и UI-дизайн: Opus 4.7. Модель лучше чувствует нюансы взаимодействия с пользователем и современную эстетику.
- Деловое письмо: GPT-5.5 показал более стабильные результаты в текстовых задачах.
- Анализ данных и сложные отчеты: GPT-5.5. Модель OpenAI продемонстрировала высокую устойчивость к галлюцинациям и внимательность к деталям в таблицах .
Google Gemini использовался в качестве нейтрального судьи, однако в ряде случаев он не смог корректно оценить визуальные элементы из-за ошибок рендеринга .