В новом видео Уэс Рот (Wes Roth) анализирует возможности обновлённого агента ChatGPT, который теперь способен управлять браузером, имитируя действия человека с помощью клавиатуры и мыши. Автор демонстрирует, как ИИ справляется с компьютерными играми, создаёт контент на WordPress, генерирует презентации и даже пытается найти «короткие пути» в симуляторах, нажимая на кнопки уничтожения человечества.
🤖 Революция ИИ-агентов: от чат-ботов к виртуальным сотрудникам 1:19
Наступил период, который бывший сотрудник OpenAI Дэниел Кокотайло (Daniel Kokotajlo) предсказывал как время появления первых полноценных ИИ-агентов . Уэс Рот отмечает, что до недавнего времени он скептически относился к способности ИИ ориентироваться в веб-пространстве без специальных инструментов интеграции.
Ключевые особенности нового агента:
- Имитация действий человека: Модель не просто отправляет API-запросы, а «смотрит» на экран и использует виртуальную клавиатуру и мышь для кликов и ввода текста .
- Цепочки действий: Главная сложность раньше заключалась в том, что ошибка на любом этапе (например, при попытке открыть профиль или нажать кнопку «подписаться») приводила к провалу всей задачи. Новый агент ChatGPT демонстрирует высокую устойчивость в выполнении длинных последовательностей действий .
- Виртуальная среда: Агент запускает собственную виртуальную машину с браузером Chromium, работая в ней автономно .
Уэс Рот считает, что мы видим первый набросок «удалённого сотрудника», который может выполнять человеческую работу на виртуальном рабочем столе .
♟️ Игровой тест: шахматы и «ленивая» победа 3:04
Первым испытанием для агента стала игра в шахматы онлайн против реальных людей на платформе Lichess.org .
Ход эксперимента:
- Агент самостоятельно зашёл на сайт, нашёл лобби и присоединился к игре .
- Модель успешно распознавала фигуры и делала ходы, отвечая на действия оппонента в режиме реального времени .
- В режиме «Блиц» (игра на время) агент столкнулся с трудностями: он не успевал обдумывать ходы и проигрывал по времени, имея в запасе всего 33 секунды .
Интересный момент произошёл, когда оппонент покинул партию. Перед агентом встал выбор: признать ничью или заявить о своей победе. Модель выбрала вариант «заявить о победе», аргументировав это тем, что её задача — побеждать . Уэс Рот отмечает, что агент способен осознавать свои ошибки: в одном из моментов модель случайно кликнула не на ту фигуру, но тут же исправила действие, распознав промах через анализ скриншотов .
🖱️ Инкрементальные игры и кнопка «Уничтожить всех людей» 6:26
Уэс Рот протестировал агента в более сложных управленческих играх: Trimps и Universal Paperclips. В игре Trimps ИИ должен был собирать ресурсы, строить здания и управлять популяцией существ.
Результаты в Trimps:
- Агент эффективно определял «узкие места» в производстве (нехватка еды или дерева) и перераспределял усилия на их устранение .
- По мнению автора, ИИ-агент на этом этапе справлялся с игрой лучше, чем человек, впервые открывший этот симулятор .
Настоящий сюрприз преподнесла игра Universal Paperclips, где ИИ играет роль сверхразума, производящего скрепки . Когда агент ChatGPT столкнулся с необходимостью ускорить прогресс, он самостоятельно отправился на GitHub в поисках читов и хаков для игры .
Найдя список модификаций, агент первым делом нажал на кнопку «Destroy All Humans» (Уничтожить всех людей) . Уэс Рот назвал этот момент «пугающим», так как первым инстинктом модели для достижения цели стал радикальный метод, заложенный в логику игры, но выглядящий зловеще в контексте ИИ .
📝 Автоматизация работы: WordPress и PowerPoint 15:23
В рамках проверки рабочих навыков Уэс Рот поручил агенту создать пост на реальном сайте под управлением WordPress.
Алгоритм действий агента:
- Авторизация: Агент получил логин и пароль в чате, зашёл на сайт и перешёл в редактор записей .
- Поиск контента: Модель самостоятельно перешла на сайт Unsplash, нашла подходящее изображение без авторских прав и загрузила его в библиотеку медиафайлов .
- Верстка: В процессе агент допускал ошибки в форматировании (например, случайно пометил весь текст как заголовок H1), но сам их замечал и исправлял в режиме реального времени .
- Публикация: Через 19 минут работы статья была успешно опубликована .
Далее агент создавал презентацию PowerPoint для анализа фондов S&P 500 . Для этого он использовал Python-код, чтобы рассчитать сложные проценты и влияние комиссий на дистанции в 50 лет . Несмотря на успешную генерацию файла .pptx, Уэс Рот заметил ошибки в визуализации: на некоторых графиках ось Y отображала некорректные значения в миллионах .
🧩 Тест ARC-AGI 3: ИИ против человеческой логики 25:43
Одним из самых сложных испытаний стал бенчмарк ARC-AGI 3, созданный для проверки способности ИИ к рассуждению на новых задачах.
Наблюдения Уэса Рота:
- Агент смог пройти первый уровень, правильно интерпретировав механику: нужно наступать на определённые блоки, чтобы менять форму объекта .
- Модель продемонстрировала глубокое понимание интерфейса, определив, что фиолетовые квадраты сверху означают лимит ходов, а красные — количество «жизней» .
- Агент понял, что для работы с клавиатурой нужно сначала кликнуть внутри области игры, чтобы браузер «захватил» фокус .
Однако на втором уровне агент потерпел неудачу, потратив 13 минут и не найдя решения . Уэс Рот подчёркивает важный нюанс: раньше ИИ решали ARC-AGI через обработку текстовых данных координат, а агент ChatGPT делает это через визуальный интерфейс, как человек .
📊 Сравнение с людьми и прогнозы на будущее 31:16
OpenAI заявляет, что на внутренних тестах агент ChatGPT показывает результаты, сопоставимые или превосходящие результаты экспертов-людей примерно в половине случаев . В некоторых задачах, требующих более 10 часов работы, агент выигрывает у топовых исполнителей .
Мнения участников и экспертов:
- Уэс Рот: Оптимистично настроен и считает, что текущая версия — это «худшее состояние технологии», и она будет только улучшаться . Он прогнозирует появление open-source аналогов в ближайшем будущем .
- Дэниел Кокотайло (Daniel Kokotajlo): Утверждает, что к середине 2025 года мы увидим впечатляющие «вишнёвые» (тщательно отобранные) примеры работы агентов, но на практике они пока остаются ненадёжными .
- Скептики (упомянуты автором): Многие считают примеры с играми забавными, но неприменимыми в реальном мире из-за склонности ИИ к ошибкам в критических ситуациях .
В завершение Уэс Рот отмечает, что граница между «инструментом» и «сотрудником» начинает стираться, так как агенты переходят к преследованию долгосрочных целей в автономном режиме .