В мире искусственного интеллекта наступила новая фаза — переход от простых чат-ботов к автономным агентам, способным выполнять сложную профессиональную работу. Автор технологического канала Wes Roth анализирует свежий релиз от Google — модель Gemini 3.1 Pro, которая демонстрирует феноменальный рост показателей в тестах на логику и автономность. По мнению автора, этот апгрейд знаменует собой начало «эры агентов», где ИИ перестает просто отвечать на вопросы и начинает самостоятельно решать задачи в офисной среде и технической сфере.
🚀 Прыжок в абстрактном мышлении: Gemini 3.1 Pro 0:00
Google выпустила Gemini 3.1 Pro, и первые результаты тестов, по словам Уэса Рота, выглядят впечатляюще . Эта модель является центральным «мозгом» всей экосистемы Gemini, и за последние три месяца она совершила качественный скачок в развитии. Наиболее показательным примером стал тест Arc AGI 2, предназначенный для измерения способностей к абстрактному рассуждению .
Динамика прогресса, которую отмечает автор:
- Предыдущая модель (Gemini 3 Pro) набирала в этом тесте 31,1%.
- Новая Gemini 3.1 Pro показала результат в 77%.
- Срок, за который был достигнут этот рост, составил всего 3 месяца .
Уэс Рот подчеркивает, что сейчас индустрия ИИ переживает фундаментальный сдвиг. Лаборатории и пользователи все меньше интересуются тем, насколько хорошо модель отвечает на вопросы. Основной фокус сместился на агентическую эру (agentic era): способность ИИ выполнять реальную работу в автономном режиме, оперировать терминалом компьютера, проводить исследования в сети и взаимодействовать с людьми для решения конкретных бизнес-задач .
🌐 Поиск «иголки в стоге сена»: бенчмарк Browse Comp 2:01
Одним из ключевых испытаний для новой модели стал бенчмарк Browse Comp, выпущенный OpenAI в апреле 2025 года . Этот тест проверяет способность ИИ-агента ориентироваться в интернете для поиска сложных, запутанных фактов. Особенность заданий в том, что ответ на них очень короткий и легко проверяемый, но найти его чрезвычайно трудно.
Для сравнения автор приводит статистику человеческих достижений в этом тесте:
- Люди справляются с заданиями Browse Comp лишь в 29% случаев.
- Многие добровольцы сдаются после нескольких часов бесплодных поисков .
Примером такого задания является поиск вымышленного персонажа по набору косвенных признаков: он должен ломать «четвертую стену», иметь предысторию с участием «самоотверженных эстетов», обладать чувством юмора и быть героем сериала, выходившего между 1960-ми и 1980-ми годами (при этом эпизодов должно быть меньше 50). Правильный ответ — Plastic Man .
В этом состязании Gemini 3.1 Pro заняла лидирующую позицию с результатом 85,9%, обойдя GPT 5.2 и недавнего фаворита Opus 4.6 (84%) .
💼 Офисная рутина и автоматизация «белых воротничков» 3:22
Другой важный тест — Apex Agents, представленный в январе 2026 года. Уэс Рот называет его «индексом продуктивности» для ИИ-агентов . В рамках теста модель помещают в симуляцию полноценной офисной среды, где у нее есть доступ к документам, электронным таблицам, почте и мессенджерам типа Slack. Задача — выдать готовый для клиента результат .
Автор описывает эти задания как «самую ужасную и нудную работу на свете», которая в реальности занимает у профессиональных консультантов или инвестиционных банкиров от 1 до 2 часов предельной концентрации . Пример задачи включает анализ структуры потребления и рыночного проникновения для портфельной стратегии бренда Pure Life с использованием сложных методологий взвешенного скоринга .
Текущие показатели моделей в Apex Agents:
- Gemini 3 Pro: 18,4%.
- Gemini 3.1 Pro и Opus 4.6: обе модели достигли 33,5% .
- В категории «Стратегический консалтинг» результат Gemini выше — 41% .
По мнению Рота, хотя ИИ пока справляется лишь с каждой третьей задачей (100% означало бы полную заменяемость человека), скорость прогресса указывает на скорую автоматизацию значительной части интеллектуального труда .
🖥️ Власть над терминалом: Terminal Bench 2.0 6:25
Ведущий отмечает, что для ИИ-агентов гораздо эффективнее использовать командную строку (CLI), чем визуальный интерфейс операционной системы, привычный людям . Тест Terminal Bench 2.0, разработанный при участии Стэнфордского института, проверяет способность моделей работать в «песочницах» Docker: настраивать веб-серверы, обрабатывать данные и даже обучать другие нейросети .
Уэс Рот делится личным опытом, когда он просил ИИ создать среду обучения с подкреплением (PyTorch) для игры в «Змейку», где одна нейросеть фактически обучала другую. Он находит этот процесс «рождения ИИ внутри ИИ» крайне любопытным .
Результаты в Terminal Bench 2.0:
- Gemini 3.1 Pro — 68,5% (лидер).
- Opus 4.6 — 65,4%.
- GPT 5.2 — 64,7%.
- Gemini 3 Pro (предыдущая версия) — всего 56,2% .
🤝 Взаимодействие и эмпатия: бенчмарк Tao 2 9:01
Последний обсуждаемый тест — Tao 2, проверяющий коммуникативные навыки агентов в условиях динамического мира. Рот сравнивает это с работой пары пилотов в фильме «Лучший стрелок» (Top Gun): агент должен не только реагировать на изменения среды, но и учитывать действия и слова своего партнера .
Типичный сценарий здесь — техподдержка. Например, ИИ-агент выступает в роли оператора телекома, который должен помочь 64-летней библиотекарше настроить компьютер, ориентируясь только на ее голосовые описания .
В этом тесте сложилась интересная конкуренция:
- Claude Opus 4.6 остается абсолютным лидером с общим результатом 91,9% . Автор отмечает особую «терпеливость» моделей Claude: они не переходят к следующему шагу, пока не убедятся, что пользователь (даже если он ленив или ошибается) правильно выполнил предыдущую команду .
- Gemini 3.1 Pro показала феноменальный результат именно в сфере телекоммуникаций — 99,3%, хотя в ритейле ее показатель составил 90,8% .
📉 Перспективы и технические сложности 13:25
Подводя итог, Уэс Рот утверждает, что технологии, заложенные в «исследовательскую» версию Deep Think, теперь успешно перенесены в Gemini 3.1 Pro для практического применения . Однако запуск не обошелся без проблем. В день релиза API Google испытывал серьезные перегрузки: автор сообщил о постоянных сбоях и низкой скорости работы из-за огромного наплыва пользователей со всего мира .
Несмотря на впечатляющие цифры в бенчмарках, Рот считает, что окончательный вердикт можно будет вынести только после тестирования модели в реальных рабочих сценариях . В ближайших планах автора — масштабная проверка возможностей Gemini 3.1 Pro, чтобы понять, насколько эти «бумажные» достижения применимы в повседневной жизни.