# GPT-5.5 против Opus 4.7: результаты тестирования на 8 реальных задачах

Источник: https://www.youtube.com/watch?v=1ZHxkiSZneA
Канал: Pat Simmons
Опубликовано: 28.04.2026

---

Автор протестировал возможности GPT-5.5 и Opus 4.7 в восьми прикладных задачах, от кодинга до финансовой аналитики. По результатам сравнения Opus 4.7 лидирует в дизайне и программировании, в то время как GPT-5.5 точнее справляется со сложными офисными отчетами [26:15].

## 💻 Программирование и веб-разработка
[[JUMP:0:26]]

В категории кодинга модели создавали лендинги, интерфейсы приложений и 3D-сцены. Основное внимание автор уделил соблюдению инструкций по дизайну и отсутствию типичных ошибок ИИ — лишних градиентов и неуместных эмодзи [1:04].

*   **Landing Page:** GPT-5.5 создал страницу с качественной анимацией прокрутки и прозрачностью [2:21]. Однако Opus 4.7 превзошел конкурента, самостоятельно внедрив 3JS для рендеринга интерактивной 3D-модели кольца с корректным освещением [8:05]. 
*   **Email-клиент:** Задача заключалась в создании интерфейса уровня Superhuman или Linear [12:30]. GPT-5.5 использовал стандартные иконки и не смог активировать командную палитру через сочетание клавиш [12:00]. Opus 4.7 создал более «премиальный» интерфейс с работающим поиском по отправителю и анимированными кнопками клавиатуры [12:13].
*   **Аналитический дашборд:** В этом раунде GPT-5.5 победил благодаря чистому дизайну и обновлению заказов в реальном времени [13:31]. Opus 4.7 допустил ошибку при рендеринге карты США, исказив очертания штатов [14:11].
*   **3D-сцена и игры:** При создании модели животной клетки на 3JS обе модели справились успешно, но Opus 4.7 обеспечил более удобное выделение органоидов при наведении курсора [16:35]. В разработке классической игры Asteroids Opus также выиграл за счет плавности управления и добавления звуковых эффектов [17:55].

## 📊 Офисные задачи и анализ данных
[[JUMP:18:31]]

Для тестирования офисных навыков автор использовал шесть CSV-файлов с тысячами строк данных, имитирующих отчеты из HubSpot и Salesforce [19:13]. Модели должны были рассчитать финансовые показатели и оформить их в виде презентации.

*   **Маркетинговый отчет:** GPT-5.5 создал визуально привлекательный дашборд с верными расчетами ARR и стоимости привлечения клиента (CPA) [20:19]. Однако модель не заметила опечатку в данных, где расходы на TikTok были разделены на две разные строки [20:45]. Opus 4.7 успешно объединил эти данные, но уступил в качестве визуализации [22:05].
*   **Финансовый пакет для совета директоров:** В отчет включили данные о выручке на 5 млн долларов с разделением на фактически признанный доход в 3,4 млн [23:24]. GPT-5.5 точно разделил эти потоки и обнаружил «пасхалку» — отсутствие оттока клиентов (churn) в исходных файлах [24:15].
*   **Галлюцинации Opus 4.7:** Модель Anthropic полностью провалила финансовый тест, выдумав данные об оттоке 73 клиентов на сумму 422 000 долларов [25:08]. Несмотря на отсутствие такой информации в файлах, Opus интегрировал эти цифры во все разделы отчета [25:21].

## 🏆 Итоговые результаты и специализация
[[JUMP:25:49]]

Несмотря на общую победу Opus 4.7 по количеству выигранных раундов за счет дизайна и кода, автор выделил четкую специализацию для каждой нейросети [26:15].

Эффективность моделей по типам задач:

1.  **Программирование и UI-дизайн:** Opus 4.7. Модель лучше чувствует нюансы взаимодействия с пользователем и современную эстетику.
2.  **Деловое письмо:** GPT-5.5 показал более стабильные результаты в текстовых задачах.
3.  **Анализ данных и сложные отчеты:** GPT-5.5. Модель OpenAI продемонстрировала высокую устойчивость к галлюцинациям и внимательность к деталям в таблицах [26:41].

Google Gemini использовался в качестве нейтрального судьи, однако в ряде случаев он не смог корректно оценить визуальные элементы из-за ошибок рендеринга [14:49].