Уэс Рот тестирует OpenAI Operator: сможет ли ИИ заменить человека в браузере?

Будущее автономных агентов: тестируем OpenAI Operator «в поле» 0:00

OpenAI представила Operator — ИИ-агента, способного самостоятельно управлять веб-браузером, выполнять многошаговые задачи в сети, резервировать столики, покупать билеты и делать покупки. В отличие от классических инструментов, работающих через API, Operator действует как человек: он «видит» экран через облачную виртуальную машину и использует виртуальную мышь и клавиатуру для взаимодействия с интерфейсом. Уэс Рот провел серию тестов, чтобы понять, насколько эта технология готова к реальному использованию.

🌐 Навигация и работа с контентом 0:53

В ходе тестирования выяснилось, что Operator успешно справляется с базовыми задачами, хотя и не лишен «детских болезней».

Поиск информации: При запросе последних новостей об ИИ, агент открыл несколько вкладок в облачном браузере, посетил Forbes и Reuters. По словам Уэса Рота, ИИ столкнулся с всплывающими окнами (pop-ups), которые не смог преодолеть, что стало напоминанием о том, что до полноценного AGI (общего искусственного интеллекта) ещё далеко.
Работа с Reddit: Агент показал отличные результаты при навигации по сайту Reddit. Уэс Рот отметил, что в отличие от многих других инструментов, которые часто «теряются» на сложных сайтах, Operator очень точно управляет курсором мыши. Агент смог найти нужный сабреддит, отсортировать посты по популярности и предоставить список.
Проблемы с авторизацией: Одной из главных преград стали системы безопасности сайтов, блокирующие автоматизированный трафик. Когда агент упирается в «капчу» или требует логин, пользователю приходится брать управление на себя. После того как Уэс Рот авторизовался в аккаунтах, процесс стал значительно стабильнее.

🛒 Автоматизация шопинга: успех на Instacart 8:59

Наиболее впечатляющие результаты Operator показал при выполнении сложной задачи: покупке продуктов на основе скриншота плана питания.

Распознавание и поиск: Уэс Рот загрузил изображение с перечнем продуктов (куриная грудка, ямс, орехи и т.д.), и агент смог распознать текст на картинке, найти товары в Instacart и добавить их в корзину.
Анализ данных: Агент успешно справился с проверкой состава. Уэс Рот попросил уточнить содержание сахара в арахисовой пасте — Operator закрыл боковую панель, перешел на страницу товара, нашел изображение с этикеткой и предоставил отчет.
Скорость и точность: Уэс Рот оценил работу агента как феноменальную, поставив ему высшую оценку за этот тест. Агент практически не совершал «холостых» кликов и быстро добавлял десятки позиций.

🧠 Технологическая основа: модель Kua 25:59

За работой Operator стоит новая модель под названием Kua. Она сочетает визуальные возможности GPT-4o с продвинутым обучением с подкреплением для работы с графическими интерфейсами.

Принципы работы: Kua обрабатывает необработанные пиксели экрана, превращая их в понимание структуры сайта. Уэс Рот подчеркивает: это имитация человеческого поведения — взгляд и использование мыши вместо обращения к серверному API.
Бенчмарки: По данным OpenAI, модель устанавливает новые рекорды в таких дисциплинах, как OS World (38,1% успеха) и Web Arena (58,1%).
Ограничения: Несмотря на успехи, агент всё ещё может совершать ошибки в логике, как это было при попытке игры в «Сапёр», где ИИ не смог эффективно использовать расстановку флагов и постоянно «подрывался».

⚖️ Вердикт: исследовательская демо или готовый продукт? 22:30

Уэс Рот подвел итог своим впечатлениям, разделив оценку на три уровня:

Рассуждения и планирование (A+): Агент безупречно понимает намерения пользователя и строит верную последовательность действий.
Управление браузером (A): Исключая редкие ошибки с прокруткой, точность кликов впечатляет.
Инфраструктура и опыт пользователя (B): Слабым местом остаются блокировки со стороны сайтов и необходимость частой авторизации.

По мнению Уэса Рота, на текущий момент Operator — это «state-of-the-art» (передовая) разработка в мире ИИ-агентов. Однако он предупреждает: технология находится на стадии исследовательского превью, а не коммерческого продукта. Пользователям следует ожидать ошибок, но скорость прогресса позволяет предположить, что в будущем подобные агенты станут полноценными помощниками в рутинных задачах.