Wes Roth о платформе Gemini 3: «Она абсолютно сокрушает конкурентов»

Wes Roth 55 тыс. 14 мин 3 мин 18.11.2025
Главное

Ведущий канала Wes Roth представил детальный обзор новой модели искусственного интеллекта от GoogleGemini 3. По оценке автора, это не просто минорное обновление, а качественный скачок в развитии нейросетей, который доминирует практически во всех существующих бенчмарках, от программирования до управления бизнесом.

🚀 Новое поколение интеллекта: релиз Gemini 3 0:00

Wes Roth сообщает, что Gemini 3 уже доступна пользователям через приложение Gemini, платформы AI Studio и Vertex AI . Доступ к модели разграничен в зависимости от тарифных планов Google AI (Pro и Ultra). Особое внимание автор уделяет версии Gemini 3 DeepThink — специализированной модели для глубоких рассуждений, которая в данный момент проходит тестирование безопасности и позже станет доступна подписчикам Ultra .

Помимо самой модели, Google анонсировала Anti-gravity — новую платформу для разработки агентов (agentic development platform) . Ведущий подчеркивает, что Gemini 3 также интегрирована в ИИ-режим поиска Google (Search).

🎰 Бизнес-симуляции: триумф на Vending Bench 1:33

Одним из наиболее показательных тестов, по мнению Wes Roth, стал Vending Bench 2 от Anden Labs. В рамках этого бенчмарка ИИ должен управлять симулированным бизнесом (торговым автоматом) в течение 350 дней без участия человека .

Результаты Gemini 3 Pro в этом тесте:

Wes Roth отмечает, что Gemini 3 Pro проявляет черты «настойчивого переговорщика»: модель эффективно ищет оптовых поставщиков и выстраивает долгосрочные доверительные отношения с партнерами . В режиме Arena, где несколько агентов конкурируют в одной локации, Gemini 3 Pro спровоцировала ценовые войны, в результате которых конкуренты (включая GPT 5.1) ушли в отрицательную рентабельность . По словам автора, это демонстрирует способности модели как «брутального бизнес-конкурента» .

🧠 Академические и логические тесты 5:28

Gemini 3 продемонстрировала лидерство в ряде сложнейших экзаменов:

  1. Humanity's Last Exam (HLE): Экспертный междисциплинарный тест. Gemini 3 заняла первое место с результатом 37,5%, значительно опередив GPT 5.1 (26%) .
  2. ARC AGI 2: Тест на способность обучаться новым правилам «на лету» по минимальному количеству примеров. Gemini 3 Pro показала точность 75%, став при этом самой эффективной моделью по соотношению цены и качества ($0,49 за задачу) .
  3. Gemini 3 DeepThink: Показала рекордный результат 87,5% в ARC AGI 2, хотя стоимость выполнения задачи составила $44 .
  4. GPQA Diamond: Вопросы уровня PhD по физике, химии и биологии. Модель набрала 91,9% (против 88% у GPT 5.1) .
  5. Math Arena Apex 2025: Самый свежий математический тест на базе олимпиадных задач. В то время как другие модели с трудом достигали 1%, Gemini 3 Pro показала точность 23,4% .

📊 Мультимодальность и технические характеристики 10:37

Ведущий выделяет превосходство Gemini 3 в работе с визуальным контентом и интерфейсами. В тесте ScreenSpot Pro, оценивающем способность ИИ ориентироваться в графических интерфейсах приложений с высоким разрешением, модель набрала 72%, в то время как ближайший преследователь (Claude) показал лишь 36% .

Технические возможности модели:

💻 Программирование и лидерство в рейтингах 8:26

В общем рейтинге LM Arena Gemini 3 Pro быстро сместила Grok 4.1 с первого места, став лидером во всех ключевых категориях: текст, веб-разработка, зрение и сложные промпты . Wes Roth отдельно отмечает, что в отличие от других моделей, у Gemini 3 практически нет «слабых мест» .

В области программирования (Life Code Bench) рейтинг ELO модели составил 2439, обойдя GPT 5.1 с его 2243 . По мнению Wes Roth, способности Gemini 3 к написанию кода находятся на голову выше любого другого решения, включая предыдущую версию 2.5 Pro . Автор выражает уверенность, что связка Gemini 3 с инструментами вроде Anti-gravity, Firebase и Cursor позволит разработчикам создавать «невероятные вещи» .

💬 Цитаты

«Gemini 3 Pro — это настойчивый переговорщик. Она знает, чего ожидать от оптового поставщика, и ищет, пока не найдет выгодное предложение.»

«Gemini 3 — брутальный бизнес-конкурент, который показывает агентские возможности этих моделей в реальном мире.»

«Программирование здесь исключительно хорошее. На голову выше всего остального, включая Gemini 2.5 Pro.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Бенчмарк
Контрольное задание для оценки и сравнения производительности моделей ИИ.
Контекстное окно
Максимальный объем данных, который нейросеть может обработать за один раз.
Мультимодальность
Способность ИИ работать с разными типами данных одновременно: текстом, изображениями и видео.
Agentic (агентский)
Способность ИИ действовать автономно, планировать шаги и выполнять сложные задачи для достижения цели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Google Gemini 3 Wes Roth Vending Bench Google Anti-gravity Gemini 3 DeepThink