Будущее автономных агентов: тестируем OpenAI Operator «в поле» 0:00
OpenAI представила Operator — ИИ-агента, способного самостоятельно управлять веб-браузером, выполнять многошаговые задачи в сети, резервировать столики, покупать билеты и делать покупки. В отличие от классических инструментов, работающих через API, Operator действует как человек: он «видит» экран через облачную виртуальную машину и использует виртуальную мышь и клавиатуру для взаимодействия с интерфейсом. Уэс Рот провел серию тестов, чтобы понять, насколько эта технология готова к реальному использованию.
🌐 Навигация и работа с контентом 0:53
В ходе тестирования выяснилось, что Operator успешно справляется с базовыми задачами, хотя и не лишен «детских болезней».
- Поиск информации: При запросе последних новостей об ИИ, агент открыл несколько вкладок в облачном браузере, посетил Forbes и Reuters. По словам Уэса Рота, ИИ столкнулся с всплывающими окнами (pop-ups), которые не смог преодолеть, что стало напоминанием о том, что до полноценного AGI (общего искусственного интеллекта) ещё далеко.
- Работа с Reddit: Агент показал отличные результаты при навигации по сайту Reddit. Уэс Рот отметил, что в отличие от многих других инструментов, которые часто «теряются» на сложных сайтах, Operator очень точно управляет курсором мыши. Агент смог найти нужный сабреддит, отсортировать посты по популярности и предоставить список.
- Проблемы с авторизацией: Одной из главных преград стали системы безопасности сайтов, блокирующие автоматизированный трафик. Когда агент упирается в «капчу» или требует логин, пользователю приходится брать управление на себя. После того как Уэс Рот авторизовался в аккаунтах, процесс стал значительно стабильнее.
🛒 Автоматизация шопинга: успех на Instacart 8:59
Наиболее впечатляющие результаты Operator показал при выполнении сложной задачи: покупке продуктов на основе скриншота плана питания.
- Распознавание и поиск: Уэс Рот загрузил изображение с перечнем продуктов (куриная грудка, ямс, орехи и т.д.), и агент смог распознать текст на картинке, найти товары в Instacart и добавить их в корзину.
- Анализ данных: Агент успешно справился с проверкой состава. Уэс Рот попросил уточнить содержание сахара в арахисовой пасте — Operator закрыл боковую панель, перешел на страницу товара, нашел изображение с этикеткой и предоставил отчет.
- Скорость и точность: Уэс Рот оценил работу агента как феноменальную, поставив ему высшую оценку за этот тест. Агент практически не совершал «холостых» кликов и быстро добавлял десятки позиций.
🧠 Технологическая основа: модель Kua 25:59
За работой Operator стоит новая модель под названием Kua. Она сочетает визуальные возможности GPT-4o с продвинутым обучением с подкреплением для работы с графическими интерфейсами.
- Принципы работы: Kua обрабатывает необработанные пиксели экрана, превращая их в понимание структуры сайта. Уэс Рот подчеркивает: это имитация человеческого поведения — взгляд и использование мыши вместо обращения к серверному API.
- Бенчмарки: По данным OpenAI, модель устанавливает новые рекорды в таких дисциплинах, как OS World (38,1% успеха) и Web Arena (58,1%).
- Ограничения: Несмотря на успехи, агент всё ещё может совершать ошибки в логике, как это было при попытке игры в «Сапёр», где ИИ не смог эффективно использовать расстановку флагов и постоянно «подрывался».
⚖️ Вердикт: исследовательская демо или готовый продукт? 22:30
Уэс Рот подвел итог своим впечатлениям, разделив оценку на три уровня:
- Рассуждения и планирование (A+): Агент безупречно понимает намерения пользователя и строит верную последовательность действий.
- Управление браузером (A): Исключая редкие ошибки с прокруткой, точность кликов впечатляет.
- Инфраструктура и опыт пользователя (B): Слабым местом остаются блокировки со стороны сайтов и необходимость частой авторизации.
По мнению Уэса Рота, на текущий момент Operator — это «state-of-the-art» (передовая) разработка в мире ИИ-агентов. Однако он предупреждает: технология находится на стадии исследовательского превью, а не коммерческого продукта. Пользователям следует ожидать ошибок, но скорость прогресса позволяет предположить, что в будущем подобные агенты станут полноценными помощниками в рутинных задачах.