# Google Gemini 3.1 Pro: «Это новая эра автономных агентов» (Wes Roth)

Источник: https://www.youtube.com/watch?v=nt3P2dGJfNg
Канал: Wes Roth
Опубликовано: 19.02.2026

---

В мире искусственного интеллекта наступила новая фаза — переход от простых чат-ботов к автономным агентам, способным выполнять сложную профессиональную работу. Автор технологического канала Wes Roth анализирует свежий релиз от Google — модель Gemini 3.1 Pro, которая демонстрирует феноменальный рост показателей в тестах на логику и автономность. По мнению автора, этот апгрейд знаменует собой начало «эры агентов», где ИИ перестает просто отвечать на вопросы и начинает самостоятельно решать задачи в офисной среде и технической сфере.

## 🚀 Прыжок в абстрактном мышлении: Gemini 3.1 Pro
[[JUMP:00:00]]

Google выпустила Gemini 3.1 Pro, и первые результаты тестов, по словам Уэса Рота, выглядят впечатляюще [0:00]. Эта модель является центральным «мозгом» всей экосистемы Gemini, и за последние три месяца она совершила качественный скачок в развитии. Наиболее показательным примером стал тест **Arc AGI 2**, предназначенный для измерения способностей к абстрактному рассуждению [0:14].

Динамика прогресса, которую отмечает автор:

*   Предыдущая модель (Gemini 3 Pro) набирала в этом тесте 31,1%.
*   Новая Gemini 3.1 Pro показала результат в 77%.
*   Срок, за который был достигнут этот рост, составил всего 3 месяца [0:41].

Уэс Рот подчеркивает, что сейчас индустрия ИИ переживает фундаментальный сдвиг. Лаборатории и пользователи все меньше интересуются тем, насколько хорошо модель отвечает на вопросы. Основной фокус сместился на **агентическую эру** (agentic era): способность ИИ выполнять реальную работу в автономном режиме, оперировать терминалом компьютера, проводить исследования в сети и взаимодействовать с людьми для решения конкретных бизнес-задач [1:08].

## 🌐 Поиск «иголки в стоге сена»: бенчмарк Browse Comp
[[JUMP:02:01]]

Одним из ключевых испытаний для новой модели стал бенчмарк **Browse Comp**, выпущенный OpenAI в апреле 2025 года [2:01]. Этот тест проверяет способность ИИ-агента ориентироваться в интернете для поиска сложных, запутанных фактов. Особенность заданий в том, что ответ на них очень короткий и легко проверяемый, но найти его чрезвычайно трудно.

Для сравнения автор приводит статистику человеческих достижений в этом тесте:

*   Люди справляются с заданиями Browse Comp лишь в 29% случаев.
*   Многие добровольцы сдаются после нескольких часов бесплодных поисков [2:28].

Примером такого задания является поиск вымышленного персонажа по набору косвенных признаков: он должен ломать «четвертую стену», иметь предысторию с участием «самоотверженных эстетов», обладать чувством юмора и быть героем сериала, выходившего между 1960-ми и 1980-ми годами (при этом эпизодов должно быть меньше 50). Правильный ответ — **Plastic Man** [2:55].

В этом состязании Gemini 3.1 Pro заняла лидирующую позицию с результатом 85,9%, обойдя GPT 5.2 и недавнего фаворита Opus 4.6 (84%) [3:22].

## 💼 Офисная рутина и автоматизация «белых воротничков»
[[JUMP:03:22]]

Другой важный тест — **Apex Agents**, представленный в январе 2026 года. Уэс Рот называет его «индексом продуктивности» для ИИ-агентов [3:35]. В рамках теста модель помещают в симуляцию полноценной офисной среды, где у нее есть доступ к документам, электронным таблицам, почте и мессенджерам типа Slack. Задача — выдать готовый для клиента результат [3:49].

Автор описывает эти задания как «самую ужасную и нудную работу на свете», которая в реальности занимает у профессиональных консультантов или инвестиционных банкиров от 1 до 2 часов предельной концентрации [4:54]. Пример задачи включает анализ структуры потребления и рыночного проникновения для портфельной стратегии бренда Pure Life с использованием сложных методологий взвешенного скоринга [4:28].

Текущие показатели моделей в Apex Agents:

*   Gemini 3 Pro: 18,4%.
*   Gemini 3.1 Pro и Opus 4.6: обе модели достигли 33,5% [5:06].
*   В категории «Стратегический консалтинг» результат Gemini выше — 41% [6:00].

По мнению Рота, хотя ИИ пока справляется лишь с каждой третьей задачей (100% означало бы полную заменяемость человека), скорость прогресса указывает на скорую автоматизацию значительной части интеллектуального труда [6:12].

## 🖥️ Власть над терминалом: Terminal Bench 2.0
[[JUMP:06:25]]

Ведущий отмечает, что для ИИ-агентов гораздо эффективнее использовать командную строку (CLI), чем визуальный интерфейс операционной системы, привычный людям [6:39]. Тест **Terminal Bench 2.0**, разработанный при участии Стэнфордского института, проверяет способность моделей работать в «песочницах» Docker: настраивать веб-серверы, обрабатывать данные и даже обучать другие нейросети [7:17].

Уэс Рот делится личным опытом, когда он просил ИИ создать среду обучения с подкреплением (PyTorch) для игры в «Змейку», где одна нейросеть фактически обучала другую. Он находит этот процесс «рождения ИИ внутри ИИ» крайне любопытным [7:42].

Результаты в Terminal Bench 2.0:

1.  Gemini 3.1 Pro — 68,5% (лидер).
2.  Opus 4.6 — 65,4%.
3.  GPT 5.2 — 64,7%.
4.  Gemini 3 Pro (предыдущая версия) — всего 56,2% [8:34].

## 🤝 Взаимодействие и эмпатия: бенчмарк Tao 2
[[JUMP:09:01]]

Последний обсуждаемый тест — **Tao 2**, проверяющий коммуникативные навыки агентов в условиях динамического мира. Рот сравнивает это с работой пары пилотов в фильме «Лучший стрелок» (Top Gun): агент должен не только реагировать на изменения среды, но и учитывать действия и слова своего партнера [9:53].

Типичный сценарий здесь — техподдержка. Например, ИИ-агент выступает в роли оператора телекома, который должен помочь 64-летней библиотекарше настроить компьютер, ориентируясь только на ее голосовые описания [10:47].

В этом тесте сложилась интересная конкуренция:

*   **Claude Opus 4.6** остается абсолютным лидером с общим результатом 91,9% [11:13]. Автор отмечает особую «терпеливость» моделей Claude: они не переходят к следующему шагу, пока не убедятся, что пользователь (даже если он ленив или ошибается) правильно выполнил предыдущую команду [12:05].
*   **Gemini 3.1 Pro** показала феноменальный результат именно в сфере телекоммуникаций — 99,3%, хотя в ритейле ее показатель составил 90,8% [12:45].

## 📉 Перспективы и технические сложности
[[JUMP:13:25]]

Подводя итог, Уэс Рот утверждает, что технологии, заложенные в «исследовательскую» версию Deep Think, теперь успешно перенесены в Gemini 3.1 Pro для практического применения [13:37]. Однако запуск не обошелся без проблем. В день релиза API Google испытывал серьезные перегрузки: автор сообщил о постоянных сбоях и низкой скорости работы из-за огромного наплыва пользователей со всего мира [14:03].

Несмотря на впечатляющие цифры в бенчмарках, Рот считает, что окончательный вердикт можно будет вынести только после тестирования модели в реальных рабочих сценариях [14:28]. В ближайших планах автора — масштабная проверка возможностей Gemini 3.1 Pro, чтобы понять, насколько эти «бумажные» достижения применимы в повседневной жизни.