Google Gemini 3.1 Pro: «Это новая эра автономных агентов» (Wes Roth)

Wes Roth 52,4 тыс. 14 мин 5 мин 19.02.2026
Главное

В мире искусственного интеллекта наступила новая фаза — переход от простых чат-ботов к автономным агентам, способным выполнять сложную профессиональную работу. Автор технологического канала Wes Roth анализирует свежий релиз от Google — модель Gemini 3.1 Pro, которая демонстрирует феноменальный рост показателей в тестах на логику и автономность. По мнению автора, этот апгрейд знаменует собой начало «эры агентов», где ИИ перестает просто отвечать на вопросы и начинает самостоятельно решать задачи в офисной среде и технической сфере.

🚀 Прыжок в абстрактном мышлении: Gemini 3.1 Pro 0:00

Google выпустила Gemini 3.1 Pro, и первые результаты тестов, по словам Уэса Рота, выглядят впечатляюще . Эта модель является центральным «мозгом» всей экосистемы Gemini, и за последние три месяца она совершила качественный скачок в развитии. Наиболее показательным примером стал тест Arc AGI 2, предназначенный для измерения способностей к абстрактному рассуждению .

Динамика прогресса, которую отмечает автор:

Уэс Рот подчеркивает, что сейчас индустрия ИИ переживает фундаментальный сдвиг. Лаборатории и пользователи все меньше интересуются тем, насколько хорошо модель отвечает на вопросы. Основной фокус сместился на агентическую эру (agentic era): способность ИИ выполнять реальную работу в автономном режиме, оперировать терминалом компьютера, проводить исследования в сети и взаимодействовать с людьми для решения конкретных бизнес-задач .

🌐 Поиск «иголки в стоге сена»: бенчмарк Browse Comp 2:01

Одним из ключевых испытаний для новой модели стал бенчмарк Browse Comp, выпущенный OpenAI в апреле 2025 года . Этот тест проверяет способность ИИ-агента ориентироваться в интернете для поиска сложных, запутанных фактов. Особенность заданий в том, что ответ на них очень короткий и легко проверяемый, но найти его чрезвычайно трудно.

Для сравнения автор приводит статистику человеческих достижений в этом тесте:

Примером такого задания является поиск вымышленного персонажа по набору косвенных признаков: он должен ломать «четвертую стену», иметь предысторию с участием «самоотверженных эстетов», обладать чувством юмора и быть героем сериала, выходившего между 1960-ми и 1980-ми годами (при этом эпизодов должно быть меньше 50). Правильный ответ — Plastic Man .

В этом состязании Gemini 3.1 Pro заняла лидирующую позицию с результатом 85,9%, обойдя GPT 5.2 и недавнего фаворита Opus 4.6 (84%) .

💼 Офисная рутина и автоматизация «белых воротничков» 3:22

Другой важный тест — Apex Agents, представленный в январе 2026 года. Уэс Рот называет его «индексом продуктивности» для ИИ-агентов . В рамках теста модель помещают в симуляцию полноценной офисной среды, где у нее есть доступ к документам, электронным таблицам, почте и мессенджерам типа Slack. Задача — выдать готовый для клиента результат .

Автор описывает эти задания как «самую ужасную и нудную работу на свете», которая в реальности занимает у профессиональных консультантов или инвестиционных банкиров от 1 до 2 часов предельной концентрации . Пример задачи включает анализ структуры потребления и рыночного проникновения для портфельной стратегии бренда Pure Life с использованием сложных методологий взвешенного скоринга .

Текущие показатели моделей в Apex Agents:

По мнению Рота, хотя ИИ пока справляется лишь с каждой третьей задачей (100% означало бы полную заменяемость человека), скорость прогресса указывает на скорую автоматизацию значительной части интеллектуального труда .

🖥️ Власть над терминалом: Terminal Bench 2.0 6:25

Ведущий отмечает, что для ИИ-агентов гораздо эффективнее использовать командную строку (CLI), чем визуальный интерфейс операционной системы, привычный людям . Тест Terminal Bench 2.0, разработанный при участии Стэнфордского института, проверяет способность моделей работать в «песочницах» Docker: настраивать веб-серверы, обрабатывать данные и даже обучать другие нейросети .

Уэс Рот делится личным опытом, когда он просил ИИ создать среду обучения с подкреплением (PyTorch) для игры в «Змейку», где одна нейросеть фактически обучала другую. Он находит этот процесс «рождения ИИ внутри ИИ» крайне любопытным .

Результаты в Terminal Bench 2.0:

  1. Gemini 3.1 Pro — 68,5% (лидер).
  2. Opus 4.6 — 65,4%.
  3. GPT 5.2 — 64,7%.
  4. Gemini 3 Pro (предыдущая версия) — всего 56,2% .

🤝 Взаимодействие и эмпатия: бенчмарк Tao 2 9:01

Последний обсуждаемый тест — Tao 2, проверяющий коммуникативные навыки агентов в условиях динамического мира. Рот сравнивает это с работой пары пилотов в фильме «Лучший стрелок» (Top Gun): агент должен не только реагировать на изменения среды, но и учитывать действия и слова своего партнера .

Типичный сценарий здесь — техподдержка. Например, ИИ-агент выступает в роли оператора телекома, который должен помочь 64-летней библиотекарше настроить компьютер, ориентируясь только на ее голосовые описания .

В этом тесте сложилась интересная конкуренция:

📉 Перспективы и технические сложности 13:25

Подводя итог, Уэс Рот утверждает, что технологии, заложенные в «исследовательскую» версию Deep Think, теперь успешно перенесены в Gemini 3.1 Pro для практического применения . Однако запуск не обошелся без проблем. В день релиза API Google испытывал серьезные перегрузки: автор сообщил о постоянных сбоях и низкой скорости работы из-за огромного наплыва пользователей со всего мира .

Несмотря на впечатляющие цифры в бенчмарках, Рот считает, что окончательный вердикт можно будет вынести только после тестирования модели в реальных рабочих сценариях . В ближайших планах автора — масштабная проверка возможностей Gemini 3.1 Pro, чтобы понять, насколько эти «бумажные» достижения применимы в повседневной жизни.

💬 Цитаты

«Мы видим большой переход в эту агентическую эру. Нас больше не волнует, как ИИ отвечает на вопросы, нам важно, может ли он выполнять реальную работу.»

«Gemini 3.1 Pro в сфере телекома набрала 99,3%. Для этих операций модель практически безупречна.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Агентическая эра (Agentic era)
Этап развития ИИ, когда модели переходят от генерации текста к автономному выполнению цепочек задач.
Бенчмарк
Стандартизированный тест для сравнения производительности различных ИИ-моделей.
Терминал (CLI)
Интерфейс командной строки, через который ИИ управляет системой с помощью текстовых команд.
Обучение с подкреплением (Reinforcement Learning)
Метод обучения ИИ, основанный на получении наград за правильные действия в среде.
📊 Цифры
🗓 Хронология
  1. ноябрь 2025 Выпуск бенчмарка Terminal Bench 2.0 совместно со Стэнфордом.
  2. январь 2026 Релиз бенчмарка Apex Agents для оценки офисной продуктивности.
  3. апрель 2025 OpenAI выпускает бенчмарк Browse Comp.
  4. февраль 2026 Выход Gemini 3.1 Pro и фиксация значительного прогресса за последние 3 месяца.
⚖️ Другая сторона
Искусственный интеллект Google Gemini 3.1 Pro Arc AGI 2 Apex Agents Claude Opus 4.6