# Уэс Рот: «Anthropic совершила прорыв в управлении ИИ-агентами»

Источник: https://www.youtube.com/watch?v=xr0FCUNoy_0
Канал: Wes Roth
Опубликовано: 22.10.2024

---

Компания Anthropic представила революционную функцию Computer Use для обновлённой модели Claude 3.5 Sonnet, которая позволяет искусственному интеллекту управлять компьютером подобно человеку. Ведущий канала Уэс Рот (Wes Roth) подробно разбирает технические возможности инструмента, демонстрирует процесс его установки через Docker и проводит живое тестирование системы в реальных сценариях.

## 🚀 Новый этап эволюции ИИ-агентов
[[JUMP:01:20]]

Компания Anthropic выпустила обновлённую версию модели Claude 3.5 Sonnet и представила совершенно новую модель — Claude 3.5 Haiku. По данным разработчиков, обновлённая Sonnet демонстрирует значительные улучшения по всем фронтам, особенно в области написания кода, где она уже занимала лидирующие позиции [01:33].

Согласно представленным тестам, Claude 3.5 Sonnet занимает первое место в таких категориях:

*   Рассуждения на уровне магистратуры (Graduate level reasoning).
*   Знания на уровне бакалавриата (Undergraduate level knowledge), где она превзошла Gemini 1.5 Pro [02:40].
*   Агентное кодирование (Agentic coding) — на бенчмарке SWE-bench Verified модель набрала 49%, что значительно выше результатов конкурентов [03:06].

Одним из самых обсуждаемых нововведений стала функция Computer Use, доступная в режиме публичной беты через API. Эта технология позволяет Claude взаимодействовать с компьютером: видеть экран, перемещать курсор, нажимать кнопки и вводить текст [01:59].

Интересной деталью из процесса обучения стал курьёзный случай: во время выполнения длительного задания по кодированию модель внезапно «отвлеклась», начала просматривать фотографии Йеллоустонского национального парка и любоваться пейзажами [03:43]. Уэс Рот в шутку заметил, что это делает ИИ более «человечным», напоминая поведение людей с СДВГ [03:55].

## 🛠 Как работает Computer Use: примеры Anthropic
[[JUMP:04:12]]

Исследователи Anthropic продемонстрировали несколько сценариев использования, которые показывают потенциал системы для автоматизации рутинных задач («drudge work»).

### Автоматизация бизнес-операций
Сэм, исследователь Anthropic, показал, как Claude заполняет форму запроса поставщика, собирая данные из разных источников [04:12]. Модель выполнила следующие действия:

1.  Сделала скриншот электронной таблицы, чтобы проверить наличие компании.
2.  Самостоятельно переключилась в CRM-систему, обнаружив, что данных в таблице нет.
3.  Нашла нужную информацию в CRM, прокручивая страницу.
4.  Перенесла все данные в веб-форму и отправила её [05:13].

### Планирование логистики
Исследователь Пуджа продемонстрировала использование Claude для организации досуга [05:37]. По её запросу ИИ:

*   Нашёл через Google подходящее место для встречи рассвета в Сан-Франциско с видом на мост Золотые Ворота.
*   Использовал карты для расчёта времени в пути от дома до локации.
*   Узнал точное время рассвета.
*   Создал приглашение в календаре со всеми деталями [06:19].

### Программирование и отладка
Алекс, руководитель отдела по связям с разработчиками, показал процесс создания сайта [06:23]. В этом демо одна инстанция Claude общалась с другой через веб-интерфейс, генерировала код, затем «агентная» часть Claude скачивала файл, открывала его в VS Code и запускала локальный сервер [07:11]. Когда возникла ошибка из-за отсутствия Python, Claude визуально считал сообщение об ошибке в терминале, попробовал команду `python3` и успешно запустил сервер [07:36].

## 📥 Инструкция по установке и запуску
[[JUMP:10:49]]

Уэс Рот подчеркивает, что несмотря на экспериментальный статус, любой желающий может протестировать инструмент. Для запуска потребуется:

1.  **Docker:** Необходимо установить Docker Desktop (для Windows, Mac или Linux), так как система работает в изолированном контейнере [11:01].
2.  **API Key:** Ключ от Anthropic, который нужно вставить в команду запуска [11:14].
3.  **Команда запуска:** Специальная команда для терминала (разная для Mac и Windows), которая разворачивает окружение с браузером Firefox и необходимым ПО [11:26].

После запуска в браузере открывается Localhost, где доступен интерфейс управления виртуальным рабочим столом. В систему предустановлены такие инструменты, как калькулятор, офисный пакет LibreOffice и браузер [12:05].

## 🧪 Живое тестирование: успехи и ошибки
[[JUMP:12:19]]

В ходе прямой трансляции Уэс Рот поставил задачу: найти пять крупнейших компаний по рыночной капитализации в 2024 году и внести их в таблицу [12:19].

Результаты теста:

*   ИИ успешно открыл Firefox, провёл поиск и выписал названия компаний (Apple, Nvidia и др.) [12:47].
*   Модель самостоятельно открыла LibreOffice Calc (аналог Excel).
*   Claude начал вводить тикеры и цифры капитализации, точно попадая курсором в нужные ячейки [13:12].
*   Уэс Рот отметил высокую точность позиционирования мыши по сравнению с предыдущими ИИ-агентами, которые он тестировал ранее [17:20].

Однако не обошлось без проблем. При попытке построить график на основе введённых данных система начала давать сбои [15:34]. Модель постоянно пыталась сохранить файл перед каждым важным действием, что ведущий назвал «разумным поведением», но затем начались ошибки `Internal Error 500` и срабатывали лимиты API (rate limits) [15:09]. 

По мнению Уэса Рота, эти ошибки связаны с огромным наплывом пользователей в первый день релиза и сыростью самой бета-версии [16:38]. Тем не менее, он считает это «верхушкой айсберга» грядущих изменений [18:37].

## 🌍 Будущее и ограничения технологии
[[JUMP:18:11]]

Уэс Рот полагает, что мы приближаемся к моменту, когда ИИ станет операционной системой [09:44]. Пользователю больше не нужно будет нажимать кнопки — достаточно будет описать результат.

Основные выводы и прогнозы:

*   **Конкуренция:** Ожидается, что OpenAI и Google вскоре представят аналогичные решения. Microsoft уже работает над технологией Recall, которая может служить базой для обучения подобных агентов [18:24].
*   **Безопасность:** Anthropic ввела жёсткие ограничения. Модель откажется создавать профили в соцсетях, рассылать спам или генерировать контент для платформ взаимодействия с людьми [18:50].
*   **Программирование:** Ведущий видит огромный потенциал в связке «Claude пишет код -> Claude запускает код -> Claude визуально проверяет результат и исправляет ошибки» [19:16].

Уэс Рот заключает, что Anthropic в данный момент «прокладывает путь» и демонстрирует феноменальную скорость развития, опережая многих конкурентов в практической реализации агентных функций [19:57].