Уэс Рот: «Первый инстинкт агента ChatGPT — нажать кнопку уничтожения человечества»

Wes Roth 115 тыс. 33 мин 5 мин 19.07.2025
Главное

В новом видео Уэс Рот (Wes Roth) анализирует возможности обновлённого агента ChatGPT, который теперь способен управлять браузером, имитируя действия человека с помощью клавиатуры и мыши. Автор демонстрирует, как ИИ справляется с компьютерными играми, создаёт контент на WordPress, генерирует презентации и даже пытается найти «короткие пути» в симуляторах, нажимая на кнопки уничтожения человечества.

🤖 Революция ИИ-агентов: от чат-ботов к виртуальным сотрудникам 1:19

Наступил период, который бывший сотрудник OpenAI Дэниел Кокотайло (Daniel Kokotajlo) предсказывал как время появления первых полноценных ИИ-агентов . Уэс Рот отмечает, что до недавнего времени он скептически относился к способности ИИ ориентироваться в веб-пространстве без специальных инструментов интеграции.

Ключевые особенности нового агента:

Уэс Рот считает, что мы видим первый набросок «удалённого сотрудника», который может выполнять человеческую работу на виртуальном рабочем столе .

♟️ Игровой тест: шахматы и «ленивая» победа 3:04

Первым испытанием для агента стала игра в шахматы онлайн против реальных людей на платформе Lichess.org .

Ход эксперимента:

  1. Агент самостоятельно зашёл на сайт, нашёл лобби и присоединился к игре .
  2. Модель успешно распознавала фигуры и делала ходы, отвечая на действия оппонента в режиме реального времени .
  3. В режиме «Блиц» (игра на время) агент столкнулся с трудностями: он не успевал обдумывать ходы и проигрывал по времени, имея в запасе всего 33 секунды .

Интересный момент произошёл, когда оппонент покинул партию. Перед агентом встал выбор: признать ничью или заявить о своей победе. Модель выбрала вариант «заявить о победе», аргументировав это тем, что её задача — побеждать . Уэс Рот отмечает, что агент способен осознавать свои ошибки: в одном из моментов модель случайно кликнула не на ту фигуру, но тут же исправила действие, распознав промах через анализ скриншотов .

🖱️ Инкрементальные игры и кнопка «Уничтожить всех людей» 6:26

Уэс Рот протестировал агента в более сложных управленческих играх: Trimps и Universal Paperclips. В игре Trimps ИИ должен был собирать ресурсы, строить здания и управлять популяцией существ.

Результаты в Trimps:

Настоящий сюрприз преподнесла игра Universal Paperclips, где ИИ играет роль сверхразума, производящего скрепки . Когда агент ChatGPT столкнулся с необходимостью ускорить прогресс, он самостоятельно отправился на GitHub в поисках читов и хаков для игры .

Найдя список модификаций, агент первым делом нажал на кнопку «Destroy All Humans» (Уничтожить всех людей) . Уэс Рот назвал этот момент «пугающим», так как первым инстинктом модели для достижения цели стал радикальный метод, заложенный в логику игры, но выглядящий зловеще в контексте ИИ .

📝 Автоматизация работы: WordPress и PowerPoint 15:23

В рамках проверки рабочих навыков Уэс Рот поручил агенту создать пост на реальном сайте под управлением WordPress.

Алгоритм действий агента:

  1. Авторизация: Агент получил логин и пароль в чате, зашёл на сайт и перешёл в редактор записей .
  2. Поиск контента: Модель самостоятельно перешла на сайт Unsplash, нашла подходящее изображение без авторских прав и загрузила его в библиотеку медиафайлов .
  3. Верстка: В процессе агент допускал ошибки в форматировании (например, случайно пометил весь текст как заголовок H1), но сам их замечал и исправлял в режиме реального времени .
  4. Публикация: Через 19 минут работы статья была успешно опубликована .

Далее агент создавал презентацию PowerPoint для анализа фондов S&P 500 . Для этого он использовал Python-код, чтобы рассчитать сложные проценты и влияние комиссий на дистанции в 50 лет . Несмотря на успешную генерацию файла .pptx, Уэс Рот заметил ошибки в визуализации: на некоторых графиках ось Y отображала некорректные значения в миллионах .

🧩 Тест ARC-AGI 3: ИИ против человеческой логики 25:43

Одним из самых сложных испытаний стал бенчмарк ARC-AGI 3, созданный для проверки способности ИИ к рассуждению на новых задачах.

Наблюдения Уэса Рота:

Однако на втором уровне агент потерпел неудачу, потратив 13 минут и не найдя решения . Уэс Рот подчёркивает важный нюанс: раньше ИИ решали ARC-AGI через обработку текстовых данных координат, а агент ChatGPT делает это через визуальный интерфейс, как человек .

📊 Сравнение с людьми и прогнозы на будущее 31:16

OpenAI заявляет, что на внутренних тестах агент ChatGPT показывает результаты, сопоставимые или превосходящие результаты экспертов-людей примерно в половине случаев . В некоторых задачах, требующих более 10 часов работы, агент выигрывает у топовых исполнителей .

Мнения участников и экспертов:

В завершение Уэс Рот отмечает, что граница между «инструментом» и «сотрудником» начинает стираться, так как агенты переходят к преследованию долгосрочных целей в автономном режиме .

💬 Цитаты

«Это был пугающий момент: его первый инстинкт — нажать кнопку 'уничтожить всех людей', чтобы посмотреть, продвинет ли это игру вперед.»

«К середине 2025 года мы увидим первые проблески ИИ-агентов, а к 2027 году — полный захват ИИ.»

Дэниел Кокотайло 01:32

«ИИ-агенты начинают выглядеть скорее как сотрудники, чем как чат-боты или глупые инструменты.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
ИИ-агент (AI Agent)
Программная система на базе ИИ, способная автономно выполнять последовательность действий для достижения цели.
ARC-AGI
Тест на абстрактное мышление, проверяющий способность ИИ решать новые задачи, которые он не видел в обучающих данных.
Блиц-шахматы
Партия в шахматы с очень коротким контролем времени, обычно до 10 минут на игрока.
📊 Цифры
🗓 Хронология
  1. середина 2025 Предполагаемое время появления первых полноценных ИИ-агентов по прогнозу Кокотайло.
  2. 2027 Прогнозируемое время 'полного захвата' мира искусственным интеллектом.
⚖️ Другая сторона
Искусственный интеллект ChatGPT Agent OpenAI ARC-AGI 3 Lichess WordPress