Уэс Рот о DragonTail: «Секретная модель Google показывает пугающе крутые результаты»

В индустрии искусственного интеллекта наметился тектонический сдвиг: компания Google, которую долгое время упрекали в неповоротливости и «футболе в собственные ворота», перешла в массированное наступление. Ведущий канала Wes Roth анализирует появление в рейтингах Chatbot Arena целой плеяды секретных моделей под кодовыми названиями DragonTail и Night Whisper, которые демонстрируют выдающиеся успехи в программировании и веб-дизайне, ставя под вопрос лидерство OpenAI и Anthropic.

🐉 DragonTail и «невидимая армия» секретных моделей Google 0:00

На данный момент Gemini 2.5 Pro уже занимает верхние строчки лидербордов, однако, по мнению Уэса Рота, это лишь верхушка айсберга . В тени основных релизов идет активное тестирование «стелс-моделей», названия которых официально не подтверждены, но их следы всё чаще обнаруживаются в LM Arena.

Среди этих моделей выделяются:

DragonTail: по словам Уэса Рота, эта модель демонстрирует «пугающе хорошие» результаты в веб-разработке . Она способна мгновенно генерировать функциональные и эстетически выверенные лендинги .
Night Whisper: эта модель показывает превосходство в дизайне интерфейсов и фронтенд-разработке по сравнению с текущими флагманами .
Другие вероятные кандидаты от Google: Dream Tides, Moon Howler, Stargazer, Shade Brook, River Hollow .

Хотя это лишь слухи и данные из анонимных тестов, Уэс Рот отмечает, что несколько независимых источников подтверждают исключительные способности DragonTail в кодинге . В одном из тестов модель Night Whisper смогла визуализировать трехмерный календарь, с чем не справилась Claude 3.7 . В другом примере модель River Hollow идеально реализовала игру «Сапер» с продвинутой графикой, в то время как конкурент полностью провалил задание .

💻 Почему программирование стало главным мерилом интеллекта ИИ 7:42

Уэс Рот подчеркивает, что акцент тестирования сместился с текстовых загадок на сложные задачи по написанию кода. Раньше модели часто ошибались даже в простых скриптах, поэтому их проверяли логическими задачами . Однако текстовые тесты стали ненадежными: модель может знать ответ просто потому, что эта конкретная загадка была в ее обучающих данных .

Преимущества тестирования через код, по мнению Рота:

Объективность: программу легко проверить — она либо работает, либо нет .
Сложность: создание работающей игры с нуля требует глубокого понимания структуры проекта и логики .
Экономическая выгода: автоматизация программирования — это потенциально многомиллиардный рынок, что делает эту сферу приоритетной для OpenAI, Anthropic и Google .
Визуализация: наблюдать за тем, как ИИ строит работающий сайт или симуляцию, гораздо интереснее, чем читать длинные текстовые ответы .

🏆 Возвращение гиганта: Google снова доминирует? 10:08

Альберто Ромеро, автор издания The Algorithmic Bridge, утверждает, что Google сейчас побеждает на всех фронтах ИИ . Долгое время компания казалась отстающей, несмотря на наличие талантов (Демис Хассабис), технологий (AlphaGo) и огромных ресурсов. Основной причиной «пробуксовки», по мнению Ромеро и Рота, был страх повредить основному источнику дохода — поисковой рекламе .

Появление таких инструментов, как Perplexity и Deep Research от OpenAI, напрямую угрожает классическому поиску Google, где пользователю приходится продираться сквозь рекламу и всплывающие окна . Осознав угрозу, Google сменила стратегию и начала «шиппить» (выпускать продукты) с огромной скоростью .

Текущие достижения Google, упомянутые в видео:

Gemini 2.5 Pro Experimental признана многими экспертами лучшей моделью в мире на текущий момент .
Gemini 2.5 Flash является самой быстрой и дешевой моделью, обходя по эффективности даже нашумевшую DeepSeek .
Deep Research от Google, по некоторым оценкам, работает вдвое эффективнее аналогичного решения от OpenAI .
Контекстное окно: Gemini поддерживает 1 миллион токенов, что позволяет обрабатывать огромные массивы данных .

🏗️ Вертикальная интеграция и преимущество инфраструктуры 18:23

В видео приводится фрагмент интервью с Томасом Курианом, генеральным директором Google Cloud. Куриан описывает уникальное преимущество Google — тесную интеграцию всех подразделений внутри холдинга Alphabet .

По словам Куриана, команда Google Cloud работает в тех же зданиях, что и разработчики DeepMind под руководством Демиса Хассабиса . Это позволяет выкатывать новые модели для разработчиков всего через несколько часов после завершения их обучения . Кроме того, Google использует единый технологический стек для всех своих сервисов (YouTube, Search, Android), что позволяет моделям учиться на колоссальном объеме обратной связи (reinforcement learning) .

Важнейшим козырем Google остаются собственные чипы — TPU (Tensor Processing Units). В отличие от конкурентов, зависящих от поставок NVIDIA, Google сама производит оборудование для обучения и работы своих нейросетей .

🤖 Будущее агентов и экосистема разработки 17:03

Google активно строит инфраструктуру для «мира агентов». Недавно был анонсирован протокол Agent-to-Agent, который позволит различным ИИ-помощникам взаимодействовать друг с другом напрямую . Также запускается Agent Space — своего рода маркетплейс или поисковик для агентов, который Уэс Рот называет «Google 2.0» .

В области инструментов для разработчиков Google представила Firebase Studio (на базе VS Code). Этот инструмент позволяет:

Создавать прототипы приложений с помощью ИИ в несколько кликов .
Мгновенно хостить (размещать) приложения в сети .
Получать доступ к аналитике данных пользователей сразу после запуска .

Уэс Рот отмечает, что подобные инструменты превращают разработку ПО из процесса, требующего месяцев работы профессионала, в задачу, которую ребенок может выполнить за пару часов . В качестве примера успеха подобных инструментов приводится редактор Cursor, чья годовая выручка выросла с $10 млн до $100 млн быстрее, чем у любого другого приложения .

В завершение Уэс Рот констатирует: Google вернулась на вершину. Имея собственные процессоры, крупнейшую экосистему Android и неисчерпаемые финансовые ресурсы от рекламы, компания становится главным фаворитом в гонке за создание следующего поколения ИИ . Однако конкуренция со стороны OpenAI, Anthropic и команды Grok Илона Маска обещает сделать ближайшие недели крайне насыщенными на новые релизы «стелс-моделей» .