Wes Roth: «Claude 3.7 Sonnet — это новый король кодинга, победивший лидеров Гим-стадионов»

Wes Roth 63,9 тыс. 26 мин 4 мин 24.02.2025
Главное

Компания Anthropic представила Claude 3.7 Sonnet — первую в мире гибридную модель, совмещающую возможности стандартной языковой модели (LLM) и продвинутые способности к рассуждению (reasoning). Обновление сопровождается запуском Claude Coder — инструмента для агентного программирования прямо в терминале. По мнению автора канала Веса Рота, новый релиз не только закрепляет лидерство Claude в сфере кодинга, но и демонстрирует уникальный подход к архитектуре ИИ, позволяющий пользователям самостоятельно определять «бюджет на раздумья» модели.

🧠 Интегрированное мышление: новый философский подход Anthropic 4:46

В отличие от конкурентов, таких как OpenAI с их моделями серии o1 или xAI с Grok 3, Anthropic применила иную философию при создании Claude 3.7 Sonnet . Вместо разделения на «обычные» и «рассуждающие» модели, компания создала единую систему, которая может работать в обоих режимах.

Ключевые особенности архитектуры:

Вес Рот отмечает, что такая гибкость является преимуществом перед Grok 3, где модель может «думать» произвольное количество времени (от 60 секунд до 3 минут) без явного контроля со стороны пользователя .

💻 Claude Coder: агентное программирование в терминале 1:20

Одним из самых ярких анонсов стал Claude Coder — исследовательское превью инструмента, который превращает Claude в полноценного ИИ-агента для разработчиков . В демонстрационном видео инженеры Anthropic Борис и Кэт показали, как инструмент работает с реальным Next.js проектом.

Возможности Claude Coder включают:

  1. Автономный анализ: Инструмент изучает структуру файлов репозитория, читает высокоуровневые файлы и компоненты, чтобы понять логику приложения .
  2. Самостоятельное редактирование: Модель может заменять элементы интерфейса (например, боковые панели), добавлять кнопки и иконки, не требуя от пользователя указывать конкретные пути к файлам .
  3. Цикл тестирования и отладки: Claude запрашивает разрешение на выполнение команд в терминале, запускает тесты и правит код до тех пор, пока все проверки не будут пройдены .
  4. Финальный билд и GitHub: После исправления ошибок сборки агент самостоятельно создает описание изменений (commit message) и отправляет код в репозиторий .

📊 Бенчмарки и превосходство в реальном мире 7:50

Claude 3.7 Sonnet демонстрирует впечатляющие результаты в специализированных тестах, особенно в сфере разработки ПО. По словам Веса Рота, многие эксперты уже называют Claude «лучшим из лучших» (GOAT) в области кодинга .

Статистика и отзывы партнеров:

Anthropic признает, что они меньше оптимизировали модель под соревновательную математику (например, AIME 2024), сосредоточившись на задачах реального мира .

🎮 Эксперимент с Pokémon: ИИ против Гим-лидеров 10:13

В качестве нестандартного теста Anthropic обучила Claude 3.7 Sonnet играть в Pokémon Red. Это не просто забава, а демонстрация способности модели к долгосрочному планированию и агентному поведению.

Детали эксперимента:

Вес Рот с иронией отмечает, что Anthropic поступила мудро, не опубликовав видео геймплея сразу, иначе всё сообщество отвлеклось бы от тестирования рабочих функций на просмотр приключений ИИ в мире покемонов .

📈 Масштабирование вычислений: последовательное и параллельное 13:55

Важной частью релиза стало исследование масштабирования вычислений во время вывода (test-time compute scaling).

  1. Последовательное масштабирование (Serial): Это увеличение «бюджета на раздумья». На тесте AIME 2024 видно, что точность модели растет логарифмически: с 32% при малом бюджете до 57% при лимите в 64 000 токенов .
  2. Параллельное масштабирование (Parallel): Использование нескольких независимых процессов мышления одновременно . Вес Рот сравнивает это с опросом прохожих в незнакомом городе: если 8 из 10 человек указывают в одну сторону, скорее всего, они правы (метод консенсуса) .
  3. Scoring Model: Anthropic разработала специальную модель оценки, которая выбирает лучший вариант из множества сгенерированных. Это позволило достичь результата 84,7% в тесте GPQA (сложные вопросы по биологии, химии и физике) .

В завершение Вес Рот упоминает популярный в ИИ-сообществе мем: вместо того чтобы заниматься сложной статистикой и тонкой настройкой, можно просто «накинуть больше слоев» и увеличить вычислительную мощность — и это работает .

💬 Цитаты

«Claude 3.7 Sonnet суперэффективна в использовании различных стратегий и пересмотре предыдущих предположений.»

«Мы считаем, что рассуждение должно быть интегрированной способностью передовых моделей, а не отдельной моделью.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Test-time compute
Дополнительные вычислительные ресурсы, которые модель использует во время генерации ответа для более глубокого анализа задачи.
Agentic tool
Инструмент, способный действовать самостоятельно: ставить цели, использовать внешние программы и исправлять свои ошибки без участия человека.
Scaffolding
Дополнительный программный каркас или инструкции, помогающие ИИ-модели лучше справляться со сложными задачами.
📊 Цифры
🗓 Хронология
  1. Февраль 2025 Релиз Claude 3.7 Sonnet и запуск Claude Coder в исследовательском превью.
⚖️ Другая сторона
Искусственный интеллект Claude 3.7 Sonnet Anthropic Claude Coder Grok 3 SWE-bench