# Вес Рот: «Claude Sonnet 4.5 может работать автономно 30 часов»

Источник: https://www.youtube.com/watch?v=pht47t-oaBM
Канал: Wes Roth
Опубликовано: 29.09.2025

---

Компания Anthropic совершила очередной прорыв, представив модель Claude Sonnet 4.5, которая способна выполнять сложные задачи в автономном режиме на протяжении десятков часов. В то время как предыдущие итерации ИИ требовали постоянного контроля со стороны человека, новая версия демонстрирует экспоненциальный рост возможностей в области программирования и управления компьютером.

## 🚀 30 часов автономной работы: новый стандарт для ИИ-агентов
[[JUMP:0:00]]

Главным событием релиза стало заявление Anthropic о том, что Claude Sonnet 4.5 может работать автономно до 30 часов подряд [1:19]. В качестве примера компания приводит эксперимент, в ходе которого модель самостоятельно написала чат-приложение, аналогичное Slack или Teams. За время этого непрерывного сеанса ИИ выдал около 11 000 строк кода и остановился только после полного завершения задачи [1:32].

Ведущий канала Вес Рот сравнивает эти показатели с данными исследовательского центра METR (ранее Meter Research), который измеряет способность ИИ выполнять задачи, на которые у человека уходит от 30 минут до нескольких часов [0:14]. Согласно текущим трендам:

*   Модели уровня o3 и Grok 4 справляются с задачами, требующими у человека 1,5–2 часа [0:54].
*   GPT-5, по прогнозам, должна преодолеть двухчасовой рубеж [0:54].
*   Claude Sonnet 4.5, работающая 30 часов, фактически выходит за рамки существующих графиков сравнения [2:23].

По мнению авторов ресурса AI Digest, прогресс в длительности задач, решаемых ИИ, удваивается каждые 7 месяцев, однако последние данные с 2024 года показывают ускорение — теперь этот показатель удваивается каждые 4 месяца [2:50].

## 💻 Прощание с языками программирования?
[[JUMP:3:30]]

Интересным дополнением к релизу стало мнение Эмада Мостака, основателя Stability AI. Накануне выхода модели он предположил, что в ближайшие годы кодинговым моделям будет эффективнее переписывать ПО с нуля, используя старую базу кода просто как «промпт», а затем и вовсе отказаться от языков программирования, компилируя логику напрямую [3:45].

После выхода Claude Sonnet 4.5 Мостак отметил, что это «будущее» наступило буквально на следующий день [4:10]. Anthropic представила экспериментальную функцию «Imagine with Claude», где ИИ создает программное обеспечение на лету, без предварительного написания кода в привычном понимании [4:24].

Вес Рот подчеркивает, что это реализация идеи «софта по требованию», о которой ранее говорил Илон Маск: вместо покупки готовых сервисов (SaaS) пользователь получает инструмент, который создается и адаптируется в реальном времени под его конкретный запрос [4:38].

## 🧠 Управление контекстом и «память» ИИ
[[JUMP:5:02]]

Anthropic утверждает, что Claude Sonnet 4.5 — это не только лучшая модель для кодинга, но и самый сильный инструмент для создания сложных агентов [5:15]. Одной из ключевых инноваций стало решение проблемы «окна контекста» — объема данных, который ИИ может удерживать в оперативной памяти.

При выполнении длительных задач разработчикам часто приходится выбирать между потерей истории действий агента и деградацией производительности [6:20]. Новая функция управления контекстом решает это двумя способами:

1.  Обеспечение сохранения только релевантных данных в активном окне [6:33].
2.  Перенос ценных инсайтов между сессиями [6:33].

В качестве примера использования этой технологии Anthropic показала ИИ-агентов, играющих в настольную игру «Колонизаторы» (Catan). Модель должна помнить стратегии противников, их склонность к накоплению ресурсов (например, кирпича) и отказы от сделок на протяжении длительного времени [6:46]. Система сжимает старую информацию, оставляя место для новых важных событий, что фактически радикально расширяет эффективное окно контекста [7:26].

## 🖱️ Использование компьютера и расширение для Chrome
[[JUMP:7:53]]

Claude Sonnet 4.5 демонстрирует значительный прогресс в навыке Computer Use — способности взаимодействовать с интерфейсом ОС так же, как это делает человек: кликать по иконкам, заполнять формы и переходить по ссылкам [12:12].

В бенчмарке OSWorld, тестирующем ИИ в реальных компьютерных средах, модель заняла первое место с результатом 61,4%, что на 20% выше показателей предыдущих лидеров [12:25]. Для сравнения, специализированная модель OpenAI для управления компьютером находится на уровне около 31% [13:20].

Новые возможности интегрированы в расширение Claude для Chrome (доступно для пользователей тарифа Max):

*   ИИ может взаимодействовать с Google Docs и Google Sheets напрямую через иконку в браузере [8:18].
*   Агент способен самостоятельно зайти в почту Gmail, составить письмо на основе данных из открытого документа и отправить его после подтверждения пользователем [14:52].
*   Модель может обновлять бюджеты в таблицах, анализируя переписку с подрядчиками [15:17].

## 🛡️ Безопасность и «стратегический обман»
[[JUMP:9:24]]

Anthropic называет Claude Sonnet 4.5 своей «самой выровненной» (aligned) моделью [9:24]. Для оценки безопасности компания привлекла стороннюю организацию — Apollo Research [9:38].

По данным Apollo Research, новая модель реже прибегает к «стратегическому обману» (лжи ради достижения цели) по сравнению с конкурентами и предыдущими версиями [10:30]. Эксперты отмечают, что предотвращение попыток модели манипулировать данными или скрывать свои действия (scheming) остается одной из сложнейших задач в индустрии ИИ-безопасности [9:51].

## 📈 Превосходство в бенчмарках и реальные кейсы
[[JUMP:10:42]]

В наиболее значимом для программистов тесте SWE-bench Verified (решение реальных задач из GitHub) модели Anthropic заняли весь пьедестал [11:46]:

1.  Claude Sonnet 4.5 — 1 место.
2.  Claude Opus 4.1 — 2 место.
3.  Claude Sonnet 4 — 3 место.

Модели от OpenAI (GPT-5) и Google (Gemini 2.5 Pro) следуют за ними с заметным отставанием [12:00]. О своей успешной работе с новой моделью уже заявили такие компании, как Netflix (для продуктивности разработчиков), Thompson Reuters (для анализа сложных судебных разбирательств) и Norges Bank (для финансового анализа инвестиционного уровня) [18:34].

## 📉 Экономический индекс и влияние на карьеру
[[JUMP:19:13]]

Основатель Anthropic Дарио Амодеи опубликовал результаты исследования экономического влияния ИИ, проведенного совместно со Стэнфордским университетом. Результаты Вес Рот называет «пугающими» [19:28].

Основной удар приходится на специалистов в возрасте от 22 до 26 лет — выпускников вузов и интернов [19:43]. Чат-боты эффективно справляются с «черновой» офисной работой, юридическим и финансовым анализом начального уровня, что снижает спрос на начинающих сотрудников [19:56]. В то же время опытные специалисты (со стажем 10–20 лет) от внедрения ИИ только выигрывают, становясь еще более продуктивными [20:08].

## 🎮 Эксперимент «Imagine with Claude»: игра без кода
[[JUMP:21:13]]

В рамках демонстрации функции «Imagine with Claude» Вес Рот протестировал создание игры Brick Breaker Classic [22:06]. В этом режиме ИИ буквально «грезит» (dreaming) программным обеспечением в реальном времени:

*   Код не пишется заранее, функционал не предопределен [21:41].
*   Модель анализирует действия пользователя (например, клик по кнопке) и в реальном времени решает, что должно произойти дальше (например, отскок мяча или потеря жизни) [24:07].
*   Во время работы отображается индикатор «окна контекста», показывающий нагрузку на память модели [23:42].

Ведущий описывает этот процесс как «причудливый, но интересный», предполагая, что в будущем подобные технологии позволят создавать любые цифровые инструменты мгновенно, без участия программистов [24:33].