Google Gemini 3.1 Pro: «Это новая эра автономных агентов» (Wes Roth)

В мире искусственного интеллекта наступила новая фаза — переход от простых чат-ботов к автономным агентам, способным выполнять сложную профессиональную работу. Автор технологического канала Wes Roth анализирует свежий релиз от Google — модель Gemini 3.1 Pro, которая демонстрирует феноменальный рост показателей в тестах на логику и автономность. По мнению автора, этот апгрейд знаменует собой начало «эры агентов», где ИИ перестает просто отвечать на вопросы и начинает самостоятельно решать задачи в офисной среде и технической сфере.

🚀 Прыжок в абстрактном мышлении: Gemini 3.1 Pro 0:00

Google выпустила Gemini 3.1 Pro, и первые результаты тестов, по словам Уэса Рота, выглядят впечатляюще . Эта модель является центральным «мозгом» всей экосистемы Gemini, и за последние три месяца она совершила качественный скачок в развитии. Наиболее показательным примером стал тест Arc AGI 2, предназначенный для измерения способностей к абстрактному рассуждению .

Динамика прогресса, которую отмечает автор:

Предыдущая модель (Gemini 3 Pro) набирала в этом тесте 31,1%.
Новая Gemini 3.1 Pro показала результат в 77%.
Срок, за который был достигнут этот рост, составил всего 3 месяца .

Уэс Рот подчеркивает, что сейчас индустрия ИИ переживает фундаментальный сдвиг. Лаборатории и пользователи все меньше интересуются тем, насколько хорошо модель отвечает на вопросы. Основной фокус сместился на агентическую эру (agentic era): способность ИИ выполнять реальную работу в автономном режиме, оперировать терминалом компьютера, проводить исследования в сети и взаимодействовать с людьми для решения конкретных бизнес-задач .

🌐 Поиск «иголки в стоге сена»: бенчмарк Browse Comp 2:01

Одним из ключевых испытаний для новой модели стал бенчмарк Browse Comp, выпущенный OpenAI в апреле 2025 года . Этот тест проверяет способность ИИ-агента ориентироваться в интернете для поиска сложных, запутанных фактов. Особенность заданий в том, что ответ на них очень короткий и легко проверяемый, но найти его чрезвычайно трудно.

Для сравнения автор приводит статистику человеческих достижений в этом тесте:

Люди справляются с заданиями Browse Comp лишь в 29% случаев.
Многие добровольцы сдаются после нескольких часов бесплодных поисков .

Примером такого задания является поиск вымышленного персонажа по набору косвенных признаков: он должен ломать «четвертую стену», иметь предысторию с участием «самоотверженных эстетов», обладать чувством юмора и быть героем сериала, выходившего между 1960-ми и 1980-ми годами (при этом эпизодов должно быть меньше 50). Правильный ответ — Plastic Man .

В этом состязании Gemini 3.1 Pro заняла лидирующую позицию с результатом 85,9%, обойдя GPT 5.2 и недавнего фаворита Opus 4.6 (84%) .

💼 Офисная рутина и автоматизация «белых воротничков» 3:22

Другой важный тест — Apex Agents, представленный в январе 2026 года. Уэс Рот называет его «индексом продуктивности» для ИИ-агентов . В рамках теста модель помещают в симуляцию полноценной офисной среды, где у нее есть доступ к документам, электронным таблицам, почте и мессенджерам типа Slack. Задача — выдать готовый для клиента результат .

Автор описывает эти задания как «самую ужасную и нудную работу на свете», которая в реальности занимает у профессиональных консультантов или инвестиционных банкиров от 1 до 2 часов предельной концентрации . Пример задачи включает анализ структуры потребления и рыночного проникновения для портфельной стратегии бренда Pure Life с использованием сложных методологий взвешенного скоринга .

Текущие показатели моделей в Apex Agents:

Gemini 3 Pro: 18,4%.
Gemini 3.1 Pro и Opus 4.6: обе модели достигли 33,5% .
В категории «Стратегический консалтинг» результат Gemini выше — 41% .

По мнению Рота, хотя ИИ пока справляется лишь с каждой третьей задачей (100% означало бы полную заменяемость человека), скорость прогресса указывает на скорую автоматизацию значительной части интеллектуального труда .

🖥️ Власть над терминалом: Terminal Bench 2.0 6:25

Ведущий отмечает, что для ИИ-агентов гораздо эффективнее использовать командную строку (CLI), чем визуальный интерфейс операционной системы, привычный людям . Тест Terminal Bench 2.0, разработанный при участии Стэнфордского института, проверяет способность моделей работать в «песочницах» Docker: настраивать веб-серверы, обрабатывать данные и даже обучать другие нейросети .

Уэс Рот делится личным опытом, когда он просил ИИ создать среду обучения с подкреплением (PyTorch) для игры в «Змейку», где одна нейросеть фактически обучала другую. Он находит этот процесс «рождения ИИ внутри ИИ» крайне любопытным .

Результаты в Terminal Bench 2.0:

Gemini 3.1 Pro — 68,5% (лидер).
Opus 4.6 — 65,4%.
GPT 5.2 — 64,7%.
Gemini 3 Pro (предыдущая версия) — всего 56,2% .

🤝 Взаимодействие и эмпатия: бенчмарк Tao 2 9:01

Последний обсуждаемый тест — Tao 2, проверяющий коммуникативные навыки агентов в условиях динамического мира. Рот сравнивает это с работой пары пилотов в фильме «Лучший стрелок» (Top Gun): агент должен не только реагировать на изменения среды, но и учитывать действия и слова своего партнера .

Типичный сценарий здесь — техподдержка. Например, ИИ-агент выступает в роли оператора телекома, который должен помочь 64-летней библиотекарше настроить компьютер, ориентируясь только на ее голосовые описания .

В этом тесте сложилась интересная конкуренция:

Claude Opus 4.6 остается абсолютным лидером с общим результатом 91,9% . Автор отмечает особую «терпеливость» моделей Claude: они не переходят к следующему шагу, пока не убедятся, что пользователь (даже если он ленив или ошибается) правильно выполнил предыдущую команду .
Gemini 3.1 Pro показала феноменальный результат именно в сфере телекоммуникаций — 99,3%, хотя в ритейле ее показатель составил 90,8% .

📉 Перспективы и технические сложности 13:25

Подводя итог, Уэс Рот утверждает, что технологии, заложенные в «исследовательскую» версию Deep Think, теперь успешно перенесены в Gemini 3.1 Pro для практического применения . Однако запуск не обошелся без проблем. В день релиза API Google испытывал серьезные перегрузки: автор сообщил о постоянных сбоях и низкой скорости работы из-за огромного наплыва пользователей со всего мира .

Несмотря на впечатляющие цифры в бенчмарках, Рот считает, что окончательный вердикт можно будет вынести только после тестирования модели в реальных рабочих сценариях . В ближайших планах автора — масштабная проверка возможностей Gemini 3.1 Pro, чтобы понять, насколько эти «бумажные» достижения применимы в повседневной жизни.