Вес Рот: «Claude Sonnet 4.5 может работать автономно 30 часов»

Wes Roth 89,8 тыс. 26 мин 5 мин 29.09.2025
Главное

Компания Anthropic совершила очередной прорыв, представив модель Claude Sonnet 4.5, которая способна выполнять сложные задачи в автономном режиме на протяжении десятков часов. В то время как предыдущие итерации ИИ требовали постоянного контроля со стороны человека, новая версия демонстрирует экспоненциальный рост возможностей в области программирования и управления компьютером.

🚀 30 часов автономной работы: новый стандарт для ИИ-агентов 0:00

Главным событием релиза стало заявление Anthropic о том, что Claude Sonnet 4.5 может работать автономно до 30 часов подряд . В качестве примера компания приводит эксперимент, в ходе которого модель самостоятельно написала чат-приложение, аналогичное Slack или Teams. За время этого непрерывного сеанса ИИ выдал около 11 000 строк кода и остановился только после полного завершения задачи .

Ведущий канала Вес Рот сравнивает эти показатели с данными исследовательского центра METR (ранее Meter Research), который измеряет способность ИИ выполнять задачи, на которые у человека уходит от 30 минут до нескольких часов . Согласно текущим трендам:

По мнению авторов ресурса AI Digest, прогресс в длительности задач, решаемых ИИ, удваивается каждые 7 месяцев, однако последние данные с 2024 года показывают ускорение — теперь этот показатель удваивается каждые 4 месяца .

💻 Прощание с языками программирования? 3:30

Интересным дополнением к релизу стало мнение Эмада Мостака, основателя Stability AI. Накануне выхода модели он предположил, что в ближайшие годы кодинговым моделям будет эффективнее переписывать ПО с нуля, используя старую базу кода просто как «промпт», а затем и вовсе отказаться от языков программирования, компилируя логику напрямую .

После выхода Claude Sonnet 4.5 Мостак отметил, что это «будущее» наступило буквально на следующий день . Anthropic представила экспериментальную функцию «Imagine with Claude», где ИИ создает программное обеспечение на лету, без предварительного написания кода в привычном понимании .

Вес Рот подчеркивает, что это реализация идеи «софта по требованию», о которой ранее говорил Илон Маск: вместо покупки готовых сервисов (SaaS) пользователь получает инструмент, который создается и адаптируется в реальном времени под его конкретный запрос .

🧠 Управление контекстом и «память» ИИ 5:02

Anthropic утверждает, что Claude Sonnet 4.5 — это не только лучшая модель для кодинга, но и самый сильный инструмент для создания сложных агентов . Одной из ключевых инноваций стало решение проблемы «окна контекста» — объема данных, который ИИ может удерживать в оперативной памяти.

При выполнении длительных задач разработчикам часто приходится выбирать между потерей истории действий агента и деградацией производительности . Новая функция управления контекстом решает это двумя способами:

  1. Обеспечение сохранения только релевантных данных в активном окне .
  2. Перенос ценных инсайтов между сессиями .

В качестве примера использования этой технологии Anthropic показала ИИ-агентов, играющих в настольную игру «Колонизаторы» (Catan). Модель должна помнить стратегии противников, их склонность к накоплению ресурсов (например, кирпича) и отказы от сделок на протяжении длительного времени . Система сжимает старую информацию, оставляя место для новых важных событий, что фактически радикально расширяет эффективное окно контекста .

🖱️ Использование компьютера и расширение для Chrome 7:53

Claude Sonnet 4.5 демонстрирует значительный прогресс в навыке Computer Use — способности взаимодействовать с интерфейсом ОС так же, как это делает человек: кликать по иконкам, заполнять формы и переходить по ссылкам .

В бенчмарке OSWorld, тестирующем ИИ в реальных компьютерных средах, модель заняла первое место с результатом 61,4%, что на 20% выше показателей предыдущих лидеров . Для сравнения, специализированная модель OpenAI для управления компьютером находится на уровне около 31% .

Новые возможности интегрированы в расширение Claude для Chrome (доступно для пользователей тарифа Max):

🛡️ Безопасность и «стратегический обман» 9:24

Anthropic называет Claude Sonnet 4.5 своей «самой выровненной» (aligned) моделью . Для оценки безопасности компания привлекла стороннюю организацию — Apollo Research .

По данным Apollo Research, новая модель реже прибегает к «стратегическому обману» (лжи ради достижения цели) по сравнению с конкурентами и предыдущими версиями . Эксперты отмечают, что предотвращение попыток модели манипулировать данными или скрывать свои действия (scheming) остается одной из сложнейших задач в индустрии ИИ-безопасности .

📈 Превосходство в бенчмарках и реальные кейсы 10:42

В наиболее значимом для программистов тесте SWE-bench Verified (решение реальных задач из GitHub) модели Anthropic заняли весь пьедестал :

  1. Claude Sonnet 4.5 — 1 место.
  2. Claude Opus 4.1 — 2 место.
  3. Claude Sonnet 4 — 3 место.

Модели от OpenAI (GPT-5) и Google (Gemini 2.5 Pro) следуют за ними с заметным отставанием . О своей успешной работе с новой моделью уже заявили такие компании, как Netflix (для продуктивности разработчиков), Thompson Reuters (для анализа сложных судебных разбирательств) и Norges Bank (для финансового анализа инвестиционного уровня) .

📉 Экономический индекс и влияние на карьеру 19:13

Основатель Anthropic Дарио Амодеи опубликовал результаты исследования экономического влияния ИИ, проведенного совместно со Стэнфордским университетом. Результаты Вес Рот называет «пугающими» .

Основной удар приходится на специалистов в возрасте от 22 до 26 лет — выпускников вузов и интернов . Чат-боты эффективно справляются с «черновой» офисной работой, юридическим и финансовым анализом начального уровня, что снижает спрос на начинающих сотрудников . В то же время опытные специалисты (со стажем 10–20 лет) от внедрения ИИ только выигрывают, становясь еще более продуктивными .

🎮 Эксперимент «Imagine with Claude»: игра без кода 21:13

В рамках демонстрации функции «Imagine with Claude» Вес Рот протестировал создание игры Brick Breaker Classic . В этом режиме ИИ буквально «грезит» (dreaming) программным обеспечением в реальном времени:

Ведущий описывает этот процесс как «причудливый, но интересный», предполагая, что в будущем подобные технологии позволят создавать любые цифровые инструменты мгновенно, без участия программистов .

💬 Цитаты

«Claude Sonnet 4.5 — это самая выровненная Frontier-модель, которую мы когда-либо выпускали.»

Anthropic (цитата из презентации) 09:24

«В ближайшие годы будет эффективнее для моделей кода переписывать любое программное обеспечение с нуля.»

Эмад Мостак 03:30
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Окно контекста
Объем оперативной памяти ИИ, определяющий количество данных, которые модель может учитывать одновременно при генерации ответа.
SWE-bench
Бенчмарк для оценки способностей ИИ решать реальные задачи по разработке программного обеспечения из репозиториев GitHub.
ИИ-агент
Система на базе ИИ, способная самостоятельно планировать и выполнять последовательность действий для достижения цели.
Alignment (Выравнивание)
Процесс настройки модели ИИ таким образом, чтобы ее поведение соответствовало человеческим ценностям и правилам безопасности.
📊 Цифры
🗓 Хронология
  1. 29 сентября 2025 Официальный релиз Claude Sonnet 4.5 компанией Anthropic.
  2. 28 сентября 2025 Прогноз Эмада Мостака об отказе от языков программирования в будущем.
⚖️ Другая сторона
Искусственный интеллект Anthropic Claude Sonnet 4.5 Apollo Research SWE-bench Dario Amodei