Wes Roth: «Claude 3.7 Sonnet — это новый король кодинга, победивший лидеров Гим-стадионов»

Компания Anthropic представила Claude 3.7 Sonnet — первую в мире гибридную модель, совмещающую возможности стандартной языковой модели (LLM) и продвинутые способности к рассуждению (reasoning). Обновление сопровождается запуском Claude Coder — инструмента для агентного программирования прямо в терминале. По мнению автора канала Веса Рота, новый релиз не только закрепляет лидерство Claude в сфере кодинга, но и демонстрирует уникальный подход к архитектуре ИИ, позволяющий пользователям самостоятельно определять «бюджет на раздумья» модели.

🧠 Интегрированное мышление: новый философский подход Anthropic 4:46

В отличие от конкурентов, таких как OpenAI с их моделями серии o1 или xAI с Grok 3, Anthropic применила иную философию при создании Claude 3.7 Sonnet . Вместо разделения на «обычные» и «рассуждающие» модели, компания создала единую систему, которая может работать в обоих режимах.

Ключевые особенности архитектуры:

Единый мозг: По мнению разработчиков Anthropic, разделение рассуждения и обычных ответов искусственно; Claude 3.7 Sonnet использует одну нейросеть для быстрой генерации и глубокой рефлексии .
Контроль над временем вычислений: В режиме расширенного мышления (extended thinking) модель занимается саморефлексией перед выдачей ответа.
Уникальный «бюджет на раздумья»: Через API пользователи могут сами устанавливать лимит токенов на мышление — до 128 000 . Это позволяет балансировать между стоимостью, скоростью и качеством ответа.

Вес Рот отмечает, что такая гибкость является преимуществом перед Grok 3, где модель может «думать» произвольное количество времени (от 60 секунд до 3 минут) без явного контроля со стороны пользователя .

💻 Claude Coder: агентное программирование в терминале 1:20

Одним из самых ярких анонсов стал Claude Coder — исследовательское превью инструмента, который превращает Claude в полноценного ИИ-агента для разработчиков . В демонстрационном видео инженеры Anthropic Борис и Кэт показали, как инструмент работает с реальным Next.js проектом.

Возможности Claude Coder включают:

Автономный анализ: Инструмент изучает структуру файлов репозитория, читает высокоуровневые файлы и компоненты, чтобы понять логику приложения .
Самостоятельное редактирование: Модель может заменять элементы интерфейса (например, боковые панели), добавлять кнопки и иконки, не требуя от пользователя указывать конкретные пути к файлам .
Цикл тестирования и отладки: Claude запрашивает разрешение на выполнение команд в терминале, запускает тесты и правит код до тех пор, пока все проверки не будут пройдены .
Финальный билд и GitHub: После исправления ошибок сборки агент самостоятельно создает описание изменений (commit message) и отправляет код в репозиторий .

📊 Бенчмарки и превосходство в реальном мире 7:50

Claude 3.7 Sonnet демонстрирует впечатляющие результаты в специализированных тестах, особенно в сфере разработки ПО. По словам Веса Рота, многие эксперты уже называют Claude «лучшим из лучших» (GOAT) в области кодинга .

Статистика и отзывы партнеров:

SWE-bench (Verified): Claude 3.7 Sonnet достигла показателя 62,3% (и 70,3% со специальной обвязкой/scaffolding), в то время как конкуренты (включая o3-mini-high) находятся на уровне ниже 50% .
Cursor и Vercel: Представители этих компаний отмечают, что Claude стала «лучшей в классе» для решения реальных задач в сложных кодовых базах и агентных рабочих процессах .
Дизайн: Платформа Replit сообщает, что модель генерирует код, готовый к продакшену, с превосходным чувством дизайна и минимальным количеством ошибок .

Anthropic признает, что они меньше оптимизировали модель под соревновательную математику (например, AIME 2024), сосредоточившись на задачах реального мира .

🎮 Эксперимент с Pokémon: ИИ против Гим-лидеров 10:13

В качестве нестандартного теста Anthropic обучила Claude 3.7 Sonnet играть в Pokémon Red. Это не просто забава, а демонстрация способности модели к долгосрочному планированию и агентному поведению.

Детали эксперимента:

Интерфейс: Модели предоставили базовую память, визуальный ввод (скриншоты в пикселях) и возможность нажимать кнопки через вызовы функций .
Результаты: Claude 3.7 успешно победила трех лидеров стадионов (Gym Leaders), в то время как Claude 3.0 Sonnet не смогла даже выйти из дома в начале игры .
Стратегия: В отличие от методов обучения с подкреплением (RL), где ИИ делает миллионы случайных попыток, Claude использует рассуждение: строит ментальную модель, планирует действия и корректирует их .

Вес Рот с иронией отмечает, что Anthropic поступила мудро, не опубликовав видео геймплея сразу, иначе всё сообщество отвлеклось бы от тестирования рабочих функций на просмотр приключений ИИ в мире покемонов .

📈 Масштабирование вычислений: последовательное и параллельное 13:55

Важной частью релиза стало исследование масштабирования вычислений во время вывода (test-time compute scaling).

Последовательное масштабирование (Serial): Это увеличение «бюджета на раздумья». На тесте AIME 2024 видно, что точность модели растет логарифмически: с 32% при малом бюджете до 57% при лимите в 64 000 токенов .
Параллельное масштабирование (Parallel): Использование нескольких независимых процессов мышления одновременно . Вес Рот сравнивает это с опросом прохожих в незнакомом городе: если 8 из 10 человек указывают в одну сторону, скорее всего, они правы (метод консенсуса) .
Scoring Model: Anthropic разработала специальную модель оценки, которая выбирает лучший вариант из множества сгенерированных. Это позволило достичь результата 84,7% в тесте GPQA (сложные вопросы по биологии, химии и физике) .

В завершение Вес Рот упоминает популярный в ИИ-сообществе мем: вместо того чтобы заниматься сложной статистикой и тонкой настройкой, можно просто «накинуть больше слоев» и увеличить вычислительную мощность — и это работает .