# Wes Roth: «Claude 3.7 Sonnet — это новый король кодинга, победивший лидеров Гим-стадионов»

Источник: https://www.youtube.com/watch?v=q10voZbTVRg
Канал: Wes Roth
Опубликовано: 24.02.2025

---

Компания Anthropic представила Claude 3.7 Sonnet — первую в мире гибридную модель, совмещающую возможности стандартной языковой модели (LLM) и продвинутые способности к рассуждению (reasoning). Обновление сопровождается запуском Claude Coder — инструмента для агентного программирования прямо в терминале. По мнению автора канала Веса Рота, новый релиз не только закрепляет лидерство Claude в сфере кодинга, но и демонстрирует уникальный подход к архитектуре ИИ, позволяющий пользователям самостоятельно определять «бюджет на раздумья» модели.

## 🧠 Интегрированное мышление: новый философский подход Anthropic
[[JUMP:04:46]]

В отличие от конкурентов, таких как OpenAI с их моделями серии o1 или xAI с Grok 3, Anthropic применила иную философию при создании Claude 3.7 Sonnet [05:39]. Вместо разделения на «обычные» и «рассуждающие» модели, компания создала единую систему, которая может работать в обоих режимах.

Ключевые особенности архитектуры:

*   **Единый мозг:** По мнению разработчиков Anthropic, разделение рассуждения и обычных ответов искусственно; Claude 3.7 Sonnet использует одну нейросеть для быстрой генерации и глубокой рефлексии [05:50].
*   **Контроль над временем вычислений:** В режиме расширенного мышления (extended thinking) модель занимается саморефлексией перед выдачей ответа.
*   **Уникальный «бюджет на раздумья»:** Через API пользователи могут сами устанавливать лимит токенов на мышление — до 128 000 [07:38]. Это позволяет балансировать между стоимостью, скоростью и качеством ответа.

Вес Рот отмечает, что такая гибкость является преимуществом перед Grok 3, где модель может «думать» произвольное количество времени (от 60 секунд до 3 минут) без явного контроля со стороны пользователя [06:47].

## 💻 Claude Coder: агентное программирование в терминале
[[JUMP:01:20]]

Одним из самых ярких анонсов стал Claude Coder — исследовательское превью инструмента, который превращает Claude в полноценного ИИ-агента для разработчиков [01:42]. В демонстрационном видео инженеры Anthropic Борис и Кэт показали, как инструмент работает с реальным Next.js проектом.

Возможности Claude Coder включают:

1.  **Автономный анализ:** Инструмент изучает структуру файлов репозитория, читает высокоуровневые файлы и компоненты, чтобы понять логику приложения [02:15].
2.  **Самостоятельное редактирование:** Модель может заменять элементы интерфейса (например, боковые панели), добавлять кнопки и иконки, не требуя от пользователя указывать конкретные пути к файлам [02:34].
3.  **Цикл тестирования и отладки:** Claude запрашивает разрешение на выполнение команд в терминале, запускает тесты и правит код до тех пор, пока все проверки не будут пройдены [03:27].
4.  **Финальный билд и GitHub:** После исправления ошибок сборки агент самостоятельно создает описание изменений (commit message) и отправляет код в репозиторий [04:20].

## 📊 Бенчмарки и превосходство в реальном мире
[[JUMP:07:50]]

Claude 3.7 Sonnet демонстрирует впечатляющие результаты в специализированных тестах, особенно в сфере разработки ПО. По словам Веса Рота, многие эксперты уже называют Claude «лучшим из лучших» (GOAT) в области кодинга [01:05].

Статистика и отзывы партнеров:

*   **SWE-bench (Verified):** Claude 3.7 Sonnet достигла показателя 62,3% (и 70,3% со специальной обвязкой/scaffolding), в то время как конкуренты (включая o3-mini-high) находятся на уровне ниже 50% [08:29].
*   **Cursor и Vercel:** Представители этих компаний отмечают, что Claude стала «лучшей в классе» для решения реальных задач в сложных кодовых базах и агентных рабочих процессах [07:52].
*   **Дизайн:** Платформа Replit сообщает, что модель генерирует код, готовый к продакшену, с превосходным чувством дизайна и минимальным количеством ошибок [08:14].

Anthropic признает, что они меньше оптимизировали модель под соревновательную математику (например, AIME 2024), сосредоточившись на задачах реального мира [09:34].

## 🎮 Эксперимент с Pokémon: ИИ против Гим-лидеров
[[JUMP:10:13]]

В качестве нестандартного теста Anthropic обучила Claude 3.7 Sonnet играть в Pokémon Red. Это не просто забава, а демонстрация способности модели к долгосрочному планированию и агентному поведению.

Детали эксперимента:

*   **Интерфейс:** Модели предоставили базовую память, визуальный ввод (скриншоты в пикселях) и возможность нажимать кнопки через вызовы функций [11:21].
*   **Результаты:** Claude 3.7 успешно победила трех лидеров стадионов (Gym Leaders), в то время как Claude 3.0 Sonnet не смогла даже выйти из дома в начале игры [10:53].
*   **Стратегия:** В отличие от методов обучения с подкреплением (RL), где ИИ делает миллионы случайных попыток, Claude использует рассуждение: строит ментальную модель, планирует действия и корректирует их [12:50].

Вес Рот с иронией отмечает, что Anthropic поступила мудро, не опубликовав видео геймплея сразу, иначе всё сообщество отвлеклось бы от тестирования рабочих функций на просмотр приключений ИИ в мире покемонов [13:41].

## 📈 Масштабирование вычислений: последовательное и параллельное
[[JUMP:13:55]]

Важной частью релиза стало исследование масштабирования вычислений во время вывода (test-time compute scaling).

1.  **Последовательное масштабирование (Serial):** Это увеличение «бюджета на раздумья». На тесте AIME 2024 видно, что точность модели растет логарифмически: с 32% при малом бюджете до 57% при лимите в 64 000 токенов [14:37].
2.  **Параллельное масштабирование (Parallel):** Использование нескольких независимых процессов мышления одновременно [16:11]. Вес Рот сравнивает это с опросом прохожих в незнакомом городе: если 8 из 10 человек указывают в одну сторону, скорее всего, они правы (метод консенсуса) [16:24].
3.  **Scoring Model:** Anthropic разработала специальную модель оценки, которая выбирает лучший вариант из множества сгенерированных. Это позволило достичь результата 84,7% в тесте GPQA (сложные вопросы по биологии, химии и физике) [22:10].

В завершение Вес Рот упоминает популярный в ИИ-сообществе мем: вместо того чтобы заниматься сложной статистикой и тонкой настройкой, можно просто «накинуть больше слоев» и увеличить вычислительную мощность — и это работает [25:51].