Уэс Рот о DragonTail: «Секретная модель Google показывает пугающе крутые результаты»

Wes Roth 70,6 тыс. 24 мин 4 мин 13.04.2025
Главное

В индустрии искусственного интеллекта наметился тектонический сдвиг: компания Google, которую долгое время упрекали в неповоротливости и «футболе в собственные ворота», перешла в массированное наступление. Ведущий канала Wes Roth анализирует появление в рейтингах Chatbot Arena целой плеяды секретных моделей под кодовыми названиями DragonTail и Night Whisper, которые демонстрируют выдающиеся успехи в программировании и веб-дизайне, ставя под вопрос лидерство OpenAI и Anthropic.

🐉 DragonTail и «невидимая армия» секретных моделей Google 0:00

На данный момент Gemini 2.5 Pro уже занимает верхние строчки лидербордов, однако, по мнению Уэса Рота, это лишь верхушка айсберга . В тени основных релизов идет активное тестирование «стелс-моделей», названия которых официально не подтверждены, но их следы всё чаще обнаруживаются в LM Arena.

Среди этих моделей выделяются:

Хотя это лишь слухи и данные из анонимных тестов, Уэс Рот отмечает, что несколько независимых источников подтверждают исключительные способности DragonTail в кодинге . В одном из тестов модель Night Whisper смогла визуализировать трехмерный календарь, с чем не справилась Claude 3.7 . В другом примере модель River Hollow идеально реализовала игру «Сапер» с продвинутой графикой, в то время как конкурент полностью провалил задание .

💻 Почему программирование стало главным мерилом интеллекта ИИ 7:42

Уэс Рот подчеркивает, что акцент тестирования сместился с текстовых загадок на сложные задачи по написанию кода. Раньше модели часто ошибались даже в простых скриптах, поэтому их проверяли логическими задачами . Однако текстовые тесты стали ненадежными: модель может знать ответ просто потому, что эта конкретная загадка была в ее обучающих данных .

Преимущества тестирования через код, по мнению Рота:

  1. Объективность: программу легко проверить — она либо работает, либо нет .
  2. Сложность: создание работающей игры с нуля требует глубокого понимания структуры проекта и логики .
  3. Экономическая выгода: автоматизация программирования — это потенциально многомиллиардный рынок, что делает эту сферу приоритетной для OpenAI, Anthropic и Google .
  4. Визуализация: наблюдать за тем, как ИИ строит работающий сайт или симуляцию, гораздо интереснее, чем читать длинные текстовые ответы .

🏆 Возвращение гиганта: Google снова доминирует? 10:08

Альберто Ромеро, автор издания The Algorithmic Bridge, утверждает, что Google сейчас побеждает на всех фронтах ИИ . Долгое время компания казалась отстающей, несмотря на наличие талантов (Демис Хассабис), технологий (AlphaGo) и огромных ресурсов. Основной причиной «пробуксовки», по мнению Ромеро и Рота, был страх повредить основному источнику дохода — поисковой рекламе .

Появление таких инструментов, как Perplexity и Deep Research от OpenAI, напрямую угрожает классическому поиску Google, где пользователю приходится продираться сквозь рекламу и всплывающие окна . Осознав угрозу, Google сменила стратегию и начала «шиппить» (выпускать продукты) с огромной скоростью .

Текущие достижения Google, упомянутые в видео:

🏗️ Вертикальная интеграция и преимущество инфраструктуры 18:23

В видео приводится фрагмент интервью с Томасом Курианом, генеральным директором Google Cloud. Куриан описывает уникальное преимущество Google — тесную интеграцию всех подразделений внутри холдинга Alphabet .

По словам Куриана, команда Google Cloud работает в тех же зданиях, что и разработчики DeepMind под руководством Демиса Хассабиса . Это позволяет выкатывать новые модели для разработчиков всего через несколько часов после завершения их обучения . Кроме того, Google использует единый технологический стек для всех своих сервисов (YouTube, Search, Android), что позволяет моделям учиться на колоссальном объеме обратной связи (reinforcement learning) .

Важнейшим козырем Google остаются собственные чипы — TPU (Tensor Processing Units). В отличие от конкурентов, зависящих от поставок NVIDIA, Google сама производит оборудование для обучения и работы своих нейросетей .

🤖 Будущее агентов и экосистема разработки 17:03

Google активно строит инфраструктуру для «мира агентов». Недавно был анонсирован протокол Agent-to-Agent, который позволит различным ИИ-помощникам взаимодействовать друг с другом напрямую . Также запускается Agent Space — своего рода маркетплейс или поисковик для агентов, который Уэс Рот называет «Google 2.0» .

В области инструментов для разработчиков Google представила Firebase Studio (на базе VS Code). Этот инструмент позволяет:

Уэс Рот отмечает, что подобные инструменты превращают разработку ПО из процесса, требующего месяцев работы профессионала, в задачу, которую ребенок может выполнить за пару часов . В качестве примера успеха подобных инструментов приводится редактор Cursor, чья годовая выручка выросла с $10 млн до $100 млн быстрее, чем у любого другого приложения .

В завершение Уэс Рот констатирует: Google вернулась на вершину. Имея собственные процессоры, крупнейшую экосистему Android и неисчерпаемые финансовые ресурсы от рекламы, компания становится главным фаворитом в гонке за создание следующего поколения ИИ . Однако конкуренция со стороны OpenAI, Anthropic и команды Grok Илона Маска обещает сделать ближайшие недели крайне насыщенными на новые релизы «стелс-моделей» .

💬 Цитаты

«Google не просто выстрелила себе в ногу, она вообще не стреляла (долгое время), боясь за поисковую рекламу.»

Альберто Ромеро 12:32

«DragonTail пугающе хороша... она выдает лендинги, которые отлично выглядят и полностью функциональны.»

«Мы прошли путь от разработки стоимостью в десятки тысяч долларов до того, что ребенок может сделать это за пару часов.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Стелс-модель (Stealth Model)
Модель ИИ, которая тестируется публично без объявления названия и разработчика.
TPU (Tensor Processing Unit)
Специализированные процессоры Google, оптимизированные для задач машинного обучения.
LM Arena
Популярный рейтинг языковых моделей, основанный на предпочтениях пользователей в слепых тестах.
Inference (Инференс)
Процесс использования обученной нейросети для получения ответа на запрос пользователя.
📊 Цифры
🗓 Хронология
  1. Март 2024 Gemini 2.5 Pro занимает первое место в Chatbot Arena
  2. Октябрь 2024 Демис Хассабис и команда DeepMind получают Нобелевскую премию за AlphaFold
  3. Недавнее прошлое Запуск Firebase Studio в режиме превью для разработчиков
⚖️ Другая сторона
Искусственный интеллект Google DeepMind DragonTail Gemini 2.5 Pro Chatbot Arena Firebase Studio