# Wes Roth о платформе Gemini 3: «Она абсолютно сокрушает конкурентов»

Источник: https://www.youtube.com/watch?v=96qyyz_ZJ_U
Канал: Wes Roth
Опубликовано: 18.11.2025

---

Ведущий канала Wes Roth представил детальный обзор новой модели искусственного интеллекта от Google — Gemini 3. По оценке автора, это не просто минорное обновление, а качественный скачок в развитии нейросетей, который доминирует практически во всех существующих бенчмарках, от программирования до управления бизнесом.

## 🚀 Новое поколение интеллекта: релиз Gemini 3
[[JUMP:0:00]]

Wes Roth сообщает, что Gemini 3 уже доступна пользователям через приложение Gemini, платформы AI Studio и Vertex AI [0:13]. Доступ к модели разграничен в зависимости от тарифных планов Google AI (Pro и Ultra). Особое внимание автор уделяет версии Gemini 3 DeepThink — специализированной модели для глубоких рассуждений, которая в данный момент проходит тестирование безопасности и позже станет доступна подписчикам Ultra [0:39].

Помимо самой модели, Google анонсировала Anti-gravity — новую платформу для разработки агентов (agentic development platform) [0:26]. Ведущий подчеркивает, что Gemini 3 также интегрирована в ИИ-режим поиска Google (Search).

## 🎰 Бизнес-симуляции: триумф на Vending Bench
[[JUMP:1:33]]

Одним из наиболее показательных тестов, по мнению Wes Roth, стал Vending Bench 2 от Anden Labs. В рамках этого бенчмарка ИИ должен управлять симулированным бизнесом (торговым автоматом) в течение 350 дней без участия человека [1:47].

Результаты Gemini 3 Pro в этом тесте:

*   **Начальный капитал:** $500.
*   **Итоговый результат:** Увеличение собственного капитала более чем в 10 раз — до $5,000 [3:05].
*   **Сравнение:** Ближайший конкурент, Claude Sonnet 4.5, заработал $3,839, а Grok 4 — чуть менее $2,000 [3:20].

Wes Roth отмечает, что Gemini 3 Pro проявляет черты «настойчивого переговорщика»: модель эффективно ищет оптовых поставщиков и выстраивает долгосрочные доверительные отношения с партнерами [3:46]. В режиме Arena, где несколько агентов конкурируют в одной локации, Gemini 3 Pro спровоцировала ценовые войны, в результате которых конкуренты (включая GPT 5.1) ушли в отрицательную рентабельность [4:36]. По словам автора, это демонстрирует способности модели как «брутального бизнес-конкурента» [4:50].

## 🧠 Академические и логические тесты
[[JUMP:5:28]]

Gemini 3 продемонстрировала лидерство в ряде сложнейших экзаменов:

1.  **Humanity's Last Exam (HLE):** Экспертный междисциплинарный тест. Gemini 3 заняла первое место с результатом 37,5%, значительно опередив GPT 5.1 (26%) [5:32].
2.  **ARC AGI 2:** Тест на способность обучаться новым правилам «на лету» по минимальному количеству примеров. Gemini 3 Pro показала точность 75%, став при этом самой эффективной моделью по соотношению цены и качества ($0,49 за задачу) [7:31].
3.  **Gemini 3 DeepThink:** Показала рекордный результат 87,5% в ARC AGI 2, хотя стоимость выполнения задачи составила $44 [7:46].
4.  **GPQA Diamond:** Вопросы уровня PhD по физике, химии и биологии. Модель набрала 91,9% (против 88% у GPT 5.1) [9:42].
5.  **Math Arena Apex 2025:** Самый свежий математический тест на базе олимпиадных задач. В то время как другие модели с трудом достигали 1%, Gemini 3 Pro показала точность 23,4% [10:25].

## 📊 Мультимодальность и технические характеристики
[[JUMP:10:37]]

Ведущий выделяет превосходство Gemini 3 в работе с визуальным контентом и интерфейсами. В тесте ScreenSpot Pro, оценивающем способность ИИ ориентироваться в графических интерфейсах приложений с высоким разрешением, модель набрала 72%, в то время как ближайший преследователь (Claude) показал лишь 36% [11:16].

Технические возможности модели:

*   **Контекстное окно:** до 1 миллиона токенов на входе [13:03].
*   **Вывод (Output):** до 64 тысяч токенов [13:03].
*   **Анализ данных:** Безупречное прохождение теста «Иголка в стоге сена» (retrieval) — модель находит конкретные данные (например, номер накладной) в массивах текста объемом 100,000+ слов [12:50].

## 💻 Программирование и лидерство в рейтингах
[[JUMP:8:26]]

В общем рейтинге LM Arena Gemini 3 Pro быстро сместила Grok 4.1 с первого места, став лидером во всех ключевых категориях: текст, веб-разработка, зрение и сложные промпты [8:38]. Wes Roth отдельно отмечает, что в отличие от других моделей, у Gemini 3 практически нет «слабых мест» [9:16].

В области программирования (Life Code Bench) рейтинг ELO модели составил 2439, обойдя GPT 5.1 с его 2243 [12:24]. По мнению Wes Roth, способности Gemini 3 к написанию кода находятся на голову выше любого другого решения, включая предыдущую версию 2.5 Pro [13:30]. Автор выражает уверенность, что связка Gemini 3 с инструментами вроде Anti-gravity, Firebase и Cursor позволит разработчикам создавать «невероятные вещи» [13:44].