Wes Roth о платформе Gemini 3: «Она абсолютно сокрушает конкурентов»

Ведущий канала Wes Roth представил детальный обзор новой модели искусственного интеллекта от Google — Gemini 3. По оценке автора, это не просто минорное обновление, а качественный скачок в развитии нейросетей, который доминирует практически во всех существующих бенчмарках, от программирования до управления бизнесом.

🚀 Новое поколение интеллекта: релиз Gemini 3 0:00

Wes Roth сообщает, что Gemini 3 уже доступна пользователям через приложение Gemini, платформы AI Studio и Vertex AI . Доступ к модели разграничен в зависимости от тарифных планов Google AI (Pro и Ultra). Особое внимание автор уделяет версии Gemini 3 DeepThink — специализированной модели для глубоких рассуждений, которая в данный момент проходит тестирование безопасности и позже станет доступна подписчикам Ultra .

Помимо самой модели, Google анонсировала Anti-gravity — новую платформу для разработки агентов (agentic development platform) . Ведущий подчеркивает, что Gemini 3 также интегрирована в ИИ-режим поиска Google (Search).

🎰 Бизнес-симуляции: триумф на Vending Bench 1:33

Одним из наиболее показательных тестов, по мнению Wes Roth, стал Vending Bench 2 от Anden Labs. В рамках этого бенчмарка ИИ должен управлять симулированным бизнесом (торговым автоматом) в течение 350 дней без участия человека .

Результаты Gemini 3 Pro в этом тесте:

Начальный капитал: $500.
Итоговый результат: Увеличение собственного капитала более чем в 10 раз — до $5,000 .
Сравнение: Ближайший конкурент, Claude Sonnet 4.5, заработал $3,839, а Grok 4 — чуть менее $2,000 .

Wes Roth отмечает, что Gemini 3 Pro проявляет черты «настойчивого переговорщика»: модель эффективно ищет оптовых поставщиков и выстраивает долгосрочные доверительные отношения с партнерами . В режиме Arena, где несколько агентов конкурируют в одной локации, Gemini 3 Pro спровоцировала ценовые войны, в результате которых конкуренты (включая GPT 5.1) ушли в отрицательную рентабельность . По словам автора, это демонстрирует способности модели как «брутального бизнес-конкурента» .

🧠 Академические и логические тесты 5:28

Gemini 3 продемонстрировала лидерство в ряде сложнейших экзаменов:

Humanity's Last Exam (HLE): Экспертный междисциплинарный тест. Gemini 3 заняла первое место с результатом 37,5%, значительно опередив GPT 5.1 (26%) .
ARC AGI 2: Тест на способность обучаться новым правилам «на лету» по минимальному количеству примеров. Gemini 3 Pro показала точность 75%, став при этом самой эффективной моделью по соотношению цены и качества ($0,49 за задачу) .
Gemini 3 DeepThink: Показала рекордный результат 87,5% в ARC AGI 2, хотя стоимость выполнения задачи составила $44 .
GPQA Diamond: Вопросы уровня PhD по физике, химии и биологии. Модель набрала 91,9% (против 88% у GPT 5.1) .
Math Arena Apex 2025: Самый свежий математический тест на базе олимпиадных задач. В то время как другие модели с трудом достигали 1%, Gemini 3 Pro показала точность 23,4% .

📊 Мультимодальность и технические характеристики 10:37

Ведущий выделяет превосходство Gemini 3 в работе с визуальным контентом и интерфейсами. В тесте ScreenSpot Pro, оценивающем способность ИИ ориентироваться в графических интерфейсах приложений с высоким разрешением, модель набрала 72%, в то время как ближайший преследователь (Claude) показал лишь 36% .

Технические возможности модели:

Контекстное окно: до 1 миллиона токенов на входе .
Вывод (Output): до 64 тысяч токенов .
Анализ данных: Безупречное прохождение теста «Иголка в стоге сена» (retrieval) — модель находит конкретные данные (например, номер накладной) в массивах текста объемом 100,000+ слов .

💻 Программирование и лидерство в рейтингах 8:26

В общем рейтинге LM Arena Gemini 3 Pro быстро сместила Grok 4.1 с первого места, став лидером во всех ключевых категориях: текст, веб-разработка, зрение и сложные промпты . Wes Roth отдельно отмечает, что в отличие от других моделей, у Gemini 3 практически нет «слабых мест» .

В области программирования (Life Code Bench) рейтинг ELO модели составил 2439, обойдя GPT 5.1 с его 2243 . По мнению Wes Roth, способности Gemini 3 к написанию кода находятся на голову выше любого другого решения, включая предыдущую версию 2.5 Pro . Автор выражает уверенность, что связка Gemini 3 с инструментами вроде Anti-gravity, Firebase и Cursor позволит разработчикам создавать «невероятные вещи» .