Уэс Рот: «Anthropic совершила прорыв в управлении ИИ-агентами»

Wes Roth 61 тыс. 20 мин 4 мин 22.10.2024
Главное

Компания Anthropic представила революционную функцию Computer Use для обновлённой модели Claude 3.5 Sonnet, которая позволяет искусственному интеллекту управлять компьютером подобно человеку. Ведущий канала Уэс Рот (Wes Roth) подробно разбирает технические возможности инструмента, демонстрирует процесс его установки через Docker и проводит живое тестирование системы в реальных сценариях.

🚀 Новый этап эволюции ИИ-агентов 1:20

Компания Anthropic выпустила обновлённую версию модели Claude 3.5 Sonnet и представила совершенно новую модель — Claude 3.5 Haiku. По данным разработчиков, обновлённая Sonnet демонстрирует значительные улучшения по всем фронтам, особенно в области написания кода, где она уже занимала лидирующие позиции .

Согласно представленным тестам, Claude 3.5 Sonnet занимает первое место в таких категориях:

Одним из самых обсуждаемых нововведений стала функция Computer Use, доступная в режиме публичной беты через API. Эта технология позволяет Claude взаимодействовать с компьютером: видеть экран, перемещать курсор, нажимать кнопки и вводить текст .

Интересной деталью из процесса обучения стал курьёзный случай: во время выполнения длительного задания по кодированию модель внезапно «отвлеклась», начала просматривать фотографии Йеллоустонского национального парка и любоваться пейзажами . Уэс Рот в шутку заметил, что это делает ИИ более «человечным», напоминая поведение людей с СДВГ .

🛠 Как работает Computer Use: примеры Anthropic 4:12

Исследователи Anthropic продемонстрировали несколько сценариев использования, которые показывают потенциал системы для автоматизации рутинных задач («drudge work»).

Автоматизация бизнес-операций

Сэм, исследователь Anthropic, показал, как Claude заполняет форму запроса поставщика, собирая данные из разных источников . Модель выполнила следующие действия:

  1. Сделала скриншот электронной таблицы, чтобы проверить наличие компании.
  2. Самостоятельно переключилась в CRM-систему, обнаружив, что данных в таблице нет.
  3. Нашла нужную информацию в CRM, прокручивая страницу.
  4. Перенесла все данные в веб-форму и отправила её .

Планирование логистики

Исследователь Пуджа продемонстрировала использование Claude для организации досуга . По её запросу ИИ:

Программирование и отладка

Алекс, руководитель отдела по связям с разработчиками, показал процесс создания сайта . В этом демо одна инстанция Claude общалась с другой через веб-интерфейс, генерировала код, затем «агентная» часть Claude скачивала файл, открывала его в VS Code и запускала локальный сервер . Когда возникла ошибка из-за отсутствия Python, Claude визуально считал сообщение об ошибке в терминале, попробовал команду python3 и успешно запустил сервер .

📥 Инструкция по установке и запуску 10:49

Уэс Рот подчеркивает, что несмотря на экспериментальный статус, любой желающий может протестировать инструмент. Для запуска потребуется:

  1. Docker: Необходимо установить Docker Desktop (для Windows, Mac или Linux), так как система работает в изолированном контейнере .
  2. API Key: Ключ от Anthropic, который нужно вставить в команду запуска .
  3. Команда запуска: Специальная команда для терминала (разная для Mac и Windows), которая разворачивает окружение с браузером Firefox и необходимым ПО .

После запуска в браузере открывается Localhost, где доступен интерфейс управления виртуальным рабочим столом. В систему предустановлены такие инструменты, как калькулятор, офисный пакет LibreOffice и браузер .

🧪 Живое тестирование: успехи и ошибки 12:19

В ходе прямой трансляции Уэс Рот поставил задачу: найти пять крупнейших компаний по рыночной капитализации в 2024 году и внести их в таблицу .

Результаты теста:

Однако не обошлось без проблем. При попытке построить график на основе введённых данных система начала давать сбои . Модель постоянно пыталась сохранить файл перед каждым важным действием, что ведущий назвал «разумным поведением», но затем начались ошибки Internal Error 500 и срабатывали лимиты API (rate limits) .

По мнению Уэса Рота, эти ошибки связаны с огромным наплывом пользователей в первый день релиза и сыростью самой бета-версии . Тем не менее, он считает это «верхушкой айсберга» грядущих изменений .

🌍 Будущее и ограничения технологии 18:11

Уэс Рот полагает, что мы приближаемся к моменту, когда ИИ станет операционной системой . Пользователю больше не нужно будет нажимать кнопки — достаточно будет описать результат.

Основные выводы и прогнозы:

Уэс Рот заключает, что Anthropic в данный момент «прокладывает путь» и демонстрирует феноменальную скорость развития, опережая многих конкурентов в практической реализации агентных функций .

💬 Цитаты

«Мы только что очень близко подошли к тому моменту, когда большие языковые модели сами становятся операционной системой.»

«Это всего лишь верхушка айсберга, верхушка надвигающегося цунами.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Computer Use
Функция ИИ, позволяющая модели взаимодействовать с графическим интерфейсом компьютера (мышь, клавиатура, экран).
Docker
Платформа для разработки и запуска приложений в изолированных контейнерах.
CRM
Система управления взаимоотношениями с клиентами, где хранятся данные о компаниях и контактах.
API
Программный интерфейс, позволяющий сторонним приложениям использовать возможности модели ИИ.
📊 Цифры
🗓 Хронология
  1. Октябрь 2024 Anthropic выпускает обновление Claude 3.5 Sonnet и публичную бету функции Computer Use.
⚖️ Другая сторона
Искусственный интеллект Anthropic Claude 3.5 Sonnet Computer Use Docker ИИ-агенты