# Уэс Рот тестирует OpenAI Operator: сможет ли ИИ заменить человека в браузере?

Источник: https://www.youtube.com/watch?v=aRe0Bz3DSr8
Канал: Wes Roth
Опубликовано: 24.01.2025

---

## Будущее автономных агентов: тестируем OpenAI Operator «в поле»
[[JUMP:0:00]]

OpenAI представила Operator — ИИ-агента, способного самостоятельно управлять веб-браузером, выполнять многошаговые задачи в сети, резервировать столики, покупать билеты и делать покупки. В отличие от классических инструментов, работающих через API, Operator действует как человек: он «видит» экран через облачную виртуальную машину и использует виртуальную мышь и клавиатуру для взаимодействия с интерфейсом. Уэс Рот провел серию тестов, чтобы понять, насколько эта технология готова к реальному использованию.

## 🌐 Навигация и работа с контентом
[[JUMP:0:53]]

В ходе тестирования выяснилось, что Operator успешно справляется с базовыми задачами, хотя и не лишен «детских болезней».

*   **Поиск информации:** При запросе последних новостей об ИИ, агент открыл несколько вкладок в облачном браузере, посетил Forbes и Reuters. По словам Уэса Рота, ИИ столкнулся с всплывающими окнами (pop-ups), которые не смог преодолеть, что стало напоминанием о том, что до полноценного AGI (общего искусственного интеллекта) ещё далеко.
*   **Работа с Reddit:** Агент показал отличные результаты при навигации по сайту Reddit. Уэс Рот отметил, что в отличие от многих других инструментов, которые часто «теряются» на сложных сайтах, Operator очень точно управляет курсором мыши. Агент смог найти нужный сабреддит, отсортировать посты по популярности и предоставить список.
*   **Проблемы с авторизацией:** Одной из главных преград стали системы безопасности сайтов, блокирующие автоматизированный трафик. Когда агент упирается в «капчу» или требует логин, пользователю приходится брать управление на себя. После того как Уэс Рот авторизовался в аккаунтах, процесс стал значительно стабильнее.

## 🛒 Автоматизация шопинга: успех на Instacart
[[JUMP:8:59]]

Наиболее впечатляющие результаты Operator показал при выполнении сложной задачи: покупке продуктов на основе скриншота плана питания.

*   **Распознавание и поиск:** Уэс Рот загрузил изображение с перечнем продуктов (куриная грудка, ямс, орехи и т.д.), и агент смог распознать текст на картинке, найти товары в Instacart и добавить их в корзину.
*   **Анализ данных:** Агент успешно справился с проверкой состава. Уэс Рот попросил уточнить содержание сахара в арахисовой пасте — Operator закрыл боковую панель, перешел на страницу товара, нашел изображение с этикеткой и предоставил отчет.
*   **Скорость и точность:** Уэс Рот оценил работу агента как феноменальную, поставив ему высшую оценку за этот тест. Агент практически не совершал «холостых» кликов и быстро добавлял десятки позиций.

## 🧠 Технологическая основа: модель Kua
[[JUMP:25:59]]

За работой Operator стоит новая модель под названием Kua. Она сочетает визуальные возможности GPT-4o с продвинутым обучением с подкреплением для работы с графическими интерфейсами.

*   **Принципы работы:** Kua обрабатывает необработанные пиксели экрана, превращая их в понимание структуры сайта. Уэс Рот подчеркивает: это имитация человеческого поведения — взгляд и использование мыши вместо обращения к серверному API.
*   **Бенчмарки:** По данным OpenAI, модель устанавливает новые рекорды в таких дисциплинах, как OS World (38,1% успеха) и Web Arena (58,1%).
*   **Ограничения:** Несмотря на успехи, агент всё ещё может совершать ошибки в логике, как это было при попытке игры в «Сапёр», где ИИ не смог эффективно использовать расстановку флагов и постоянно «подрывался».

## ⚖️ Вердикт: исследовательская демо или готовый продукт?
[[JUMP:22:30]]

Уэс Рот подвел итог своим впечатлениям, разделив оценку на три уровня:

1.  **Рассуждения и планирование (A+):** Агент безупречно понимает намерения пользователя и строит верную последовательность действий.
2.  **Управление браузером (A):** Исключая редкие ошибки с прокруткой, точность кликов впечатляет.
3.  **Инфраструктура и опыт пользователя (B):** Слабым местом остаются блокировки со стороны сайтов и необходимость частой авторизации.

По мнению Уэса Рота, на текущий момент Operator — это «state-of-the-art» (передовая) разработка в мире ИИ-агентов. Однако он предупреждает: технология находится на стадии исследовательского превью, а не коммерческого продукта. Пользователям следует ожидать ошибок, но скорость прогресса позволяет предположить, что в будущем подобные агенты станут полноценными помощниками в рутинных задачах.