Вес Рот: «Claude Sonnet 4.5 может работать автономно 30 часов»

Компания Anthropic совершила очередной прорыв, представив модель Claude Sonnet 4.5, которая способна выполнять сложные задачи в автономном режиме на протяжении десятков часов. В то время как предыдущие итерации ИИ требовали постоянного контроля со стороны человека, новая версия демонстрирует экспоненциальный рост возможностей в области программирования и управления компьютером.

🚀 30 часов автономной работы: новый стандарт для ИИ-агентов 0:00

Главным событием релиза стало заявление Anthropic о том, что Claude Sonnet 4.5 может работать автономно до 30 часов подряд . В качестве примера компания приводит эксперимент, в ходе которого модель самостоятельно написала чат-приложение, аналогичное Slack или Teams. За время этого непрерывного сеанса ИИ выдал около 11 000 строк кода и остановился только после полного завершения задачи .

Ведущий канала Вес Рот сравнивает эти показатели с данными исследовательского центра METR (ранее Meter Research), который измеряет способность ИИ выполнять задачи, на которые у человека уходит от 30 минут до нескольких часов . Согласно текущим трендам:

Модели уровня o3 и Grok 4 справляются с задачами, требующими у человека 1,5–2 часа .
GPT-5, по прогнозам, должна преодолеть двухчасовой рубеж .
Claude Sonnet 4.5, работающая 30 часов, фактически выходит за рамки существующих графиков сравнения .

По мнению авторов ресурса AI Digest, прогресс в длительности задач, решаемых ИИ, удваивается каждые 7 месяцев, однако последние данные с 2024 года показывают ускорение — теперь этот показатель удваивается каждые 4 месяца .

💻 Прощание с языками программирования? 3:30

Интересным дополнением к релизу стало мнение Эмада Мостака, основателя Stability AI. Накануне выхода модели он предположил, что в ближайшие годы кодинговым моделям будет эффективнее переписывать ПО с нуля, используя старую базу кода просто как «промпт», а затем и вовсе отказаться от языков программирования, компилируя логику напрямую .

После выхода Claude Sonnet 4.5 Мостак отметил, что это «будущее» наступило буквально на следующий день . Anthropic представила экспериментальную функцию «Imagine with Claude», где ИИ создает программное обеспечение на лету, без предварительного написания кода в привычном понимании .

Вес Рот подчеркивает, что это реализация идеи «софта по требованию», о которой ранее говорил Илон Маск: вместо покупки готовых сервисов (SaaS) пользователь получает инструмент, который создается и адаптируется в реальном времени под его конкретный запрос .

🧠 Управление контекстом и «память» ИИ 5:02

Anthropic утверждает, что Claude Sonnet 4.5 — это не только лучшая модель для кодинга, но и самый сильный инструмент для создания сложных агентов . Одной из ключевых инноваций стало решение проблемы «окна контекста» — объема данных, который ИИ может удерживать в оперативной памяти.

При выполнении длительных задач разработчикам часто приходится выбирать между потерей истории действий агента и деградацией производительности . Новая функция управления контекстом решает это двумя способами:

Обеспечение сохранения только релевантных данных в активном окне .
Перенос ценных инсайтов между сессиями .

В качестве примера использования этой технологии Anthropic показала ИИ-агентов, играющих в настольную игру «Колонизаторы» (Catan). Модель должна помнить стратегии противников, их склонность к накоплению ресурсов (например, кирпича) и отказы от сделок на протяжении длительного времени . Система сжимает старую информацию, оставляя место для новых важных событий, что фактически радикально расширяет эффективное окно контекста .

🖱️ Использование компьютера и расширение для Chrome 7:53

Claude Sonnet 4.5 демонстрирует значительный прогресс в навыке Computer Use — способности взаимодействовать с интерфейсом ОС так же, как это делает человек: кликать по иконкам, заполнять формы и переходить по ссылкам .

В бенчмарке OSWorld, тестирующем ИИ в реальных компьютерных средах, модель заняла первое место с результатом 61,4%, что на 20% выше показателей предыдущих лидеров . Для сравнения, специализированная модель OpenAI для управления компьютером находится на уровне около 31% .

Новые возможности интегрированы в расширение Claude для Chrome (доступно для пользователей тарифа Max):

ИИ может взаимодействовать с Google Docs и Google Sheets напрямую через иконку в браузере .
Агент способен самостоятельно зайти в почту Gmail, составить письмо на основе данных из открытого документа и отправить его после подтверждения пользователем .
Модель может обновлять бюджеты в таблицах, анализируя переписку с подрядчиками .

🛡️ Безопасность и «стратегический обман» 9:24

Anthropic называет Claude Sonnet 4.5 своей «самой выровненной» (aligned) моделью . Для оценки безопасности компания привлекла стороннюю организацию — Apollo Research .

По данным Apollo Research, новая модель реже прибегает к «стратегическому обману» (лжи ради достижения цели) по сравнению с конкурентами и предыдущими версиями . Эксперты отмечают, что предотвращение попыток модели манипулировать данными или скрывать свои действия (scheming) остается одной из сложнейших задач в индустрии ИИ-безопасности .

📈 Превосходство в бенчмарках и реальные кейсы 10:42

В наиболее значимом для программистов тесте SWE-bench Verified (решение реальных задач из GitHub) модели Anthropic заняли весь пьедестал :

Claude Sonnet 4.5 — 1 место.
Claude Opus 4.1 — 2 место.
Claude Sonnet 4 — 3 место.

Модели от OpenAI (GPT-5) и Google (Gemini 2.5 Pro) следуют за ними с заметным отставанием . О своей успешной работе с новой моделью уже заявили такие компании, как Netflix (для продуктивности разработчиков), Thompson Reuters (для анализа сложных судебных разбирательств) и Norges Bank (для финансового анализа инвестиционного уровня) .

📉 Экономический индекс и влияние на карьеру 19:13

Основатель Anthropic Дарио Амодеи опубликовал результаты исследования экономического влияния ИИ, проведенного совместно со Стэнфордским университетом. Результаты Вес Рот называет «пугающими» .

Основной удар приходится на специалистов в возрасте от 22 до 26 лет — выпускников вузов и интернов . Чат-боты эффективно справляются с «черновой» офисной работой, юридическим и финансовым анализом начального уровня, что снижает спрос на начинающих сотрудников . В то же время опытные специалисты (со стажем 10–20 лет) от внедрения ИИ только выигрывают, становясь еще более продуктивными .

🎮 Эксперимент «Imagine with Claude»: игра без кода 21:13

В рамках демонстрации функции «Imagine with Claude» Вес Рот протестировал создание игры Brick Breaker Classic . В этом режиме ИИ буквально «грезит» (dreaming) программным обеспечением в реальном времени:

Код не пишется заранее, функционал не предопределен .
Модель анализирует действия пользователя (например, клик по кнопке) и в реальном времени решает, что должно произойти дальше (например, отскок мяча или потеря жизни) .
Во время работы отображается индикатор «окна контекста», показывающий нагрузку на память модели .

Ведущий описывает этот процесс как «причудливый, но интересный», предполагая, что в будущем подобные технологии позволят создавать любые цифровые инструменты мгновенно, без участия программистов .