Ведущий канала Wes Roth представил детальный обзор новой модели искусственного интеллекта от Google — Gemini 3. По оценке автора, это не просто минорное обновление, а качественный скачок в развитии нейросетей, который доминирует практически во всех существующих бенчмарках, от программирования до управления бизнесом.
🚀 Новое поколение интеллекта: релиз Gemini 3 0:00
Wes Roth сообщает, что Gemini 3 уже доступна пользователям через приложение Gemini, платформы AI Studio и Vertex AI . Доступ к модели разграничен в зависимости от тарифных планов Google AI (Pro и Ultra). Особое внимание автор уделяет версии Gemini 3 DeepThink — специализированной модели для глубоких рассуждений, которая в данный момент проходит тестирование безопасности и позже станет доступна подписчикам Ultra .
Помимо самой модели, Google анонсировала Anti-gravity — новую платформу для разработки агентов (agentic development platform) . Ведущий подчеркивает, что Gemini 3 также интегрирована в ИИ-режим поиска Google (Search).
🎰 Бизнес-симуляции: триумф на Vending Bench 1:33
Одним из наиболее показательных тестов, по мнению Wes Roth, стал Vending Bench 2 от Anden Labs. В рамках этого бенчмарка ИИ должен управлять симулированным бизнесом (торговым автоматом) в течение 350 дней без участия человека .
Результаты Gemini 3 Pro в этом тесте:
- Начальный капитал: $500.
- Итоговый результат: Увеличение собственного капитала более чем в 10 раз — до $5,000 .
- Сравнение: Ближайший конкурент, Claude Sonnet 4.5, заработал $3,839, а Grok 4 — чуть менее $2,000 .
Wes Roth отмечает, что Gemini 3 Pro проявляет черты «настойчивого переговорщика»: модель эффективно ищет оптовых поставщиков и выстраивает долгосрочные доверительные отношения с партнерами . В режиме Arena, где несколько агентов конкурируют в одной локации, Gemini 3 Pro спровоцировала ценовые войны, в результате которых конкуренты (включая GPT 5.1) ушли в отрицательную рентабельность . По словам автора, это демонстрирует способности модели как «брутального бизнес-конкурента» .
🧠 Академические и логические тесты 5:28
Gemini 3 продемонстрировала лидерство в ряде сложнейших экзаменов:
- Humanity's Last Exam (HLE): Экспертный междисциплинарный тест. Gemini 3 заняла первое место с результатом 37,5%, значительно опередив GPT 5.1 (26%) .
- ARC AGI 2: Тест на способность обучаться новым правилам «на лету» по минимальному количеству примеров. Gemini 3 Pro показала точность 75%, став при этом самой эффективной моделью по соотношению цены и качества ($0,49 за задачу) .
- Gemini 3 DeepThink: Показала рекордный результат 87,5% в ARC AGI 2, хотя стоимость выполнения задачи составила $44 .
- GPQA Diamond: Вопросы уровня PhD по физике, химии и биологии. Модель набрала 91,9% (против 88% у GPT 5.1) .
- Math Arena Apex 2025: Самый свежий математический тест на базе олимпиадных задач. В то время как другие модели с трудом достигали 1%, Gemini 3 Pro показала точность 23,4% .
📊 Мультимодальность и технические характеристики 10:37
Ведущий выделяет превосходство Gemini 3 в работе с визуальным контентом и интерфейсами. В тесте ScreenSpot Pro, оценивающем способность ИИ ориентироваться в графических интерфейсах приложений с высоким разрешением, модель набрала 72%, в то время как ближайший преследователь (Claude) показал лишь 36% .
Технические возможности модели:
- Контекстное окно: до 1 миллиона токенов на входе .
- Вывод (Output): до 64 тысяч токенов .
- Анализ данных: Безупречное прохождение теста «Иголка в стоге сена» (retrieval) — модель находит конкретные данные (например, номер накладной) в массивах текста объемом 100,000+ слов .
💻 Программирование и лидерство в рейтингах 8:26
В общем рейтинге LM Arena Gemini 3 Pro быстро сместила Grok 4.1 с первого места, став лидером во всех ключевых категориях: текст, веб-разработка, зрение и сложные промпты . Wes Roth отдельно отмечает, что в отличие от других моделей, у Gemini 3 практически нет «слабых мест» .
В области программирования (Life Code Bench) рейтинг ELO модели составил 2439, обойдя GPT 5.1 с его 2243 . По мнению Wes Roth, способности Gemini 3 к написанию кода находятся на голову выше любого другого решения, включая предыдущую версию 2.5 Pro . Автор выражает уверенность, что связка Gemini 3 с инструментами вроде Anti-gravity, Firebase и Cursor позволит разработчикам создавать «невероятные вещи» .