Компания Google стремительно возвращает себе лидерство в гонке искусственного интеллекта, представляя решения, которые превосходят продукты OpenAI, Meta и Anthropic в ключевых категориях. В новом обзоре Уэс Рот анализирует масштабное наступление Google DeepMind по всем фронтам: от генерации видео и изображений до создания автономных веб-агентов и систем «глубокого исследования».
🎬 Видео и изображения: Veo 2 и Imagen 3 выходят в лидеры 0:26
Главным событием недели стал анонс Veo 2 — современной модели генерации видео от Google, способной создавать контент в разрешении 4K с высокой степенью реализма . По мнению Уэса Рота, эта модель превосходит все существующие аналоги, включая Meta Movie Gen, Kling 1.5, Luma Dream Machine и даже долгожданную Sora Turbo от OpenAI .
Ключевые особенности Veo 2:
- Понимание физики: Модель демонстрирует выдающиеся способности в интерпретации физических взаимодействий, что делает движения в кадре более естественными, чем у конкурентов .
- Точность промптов: Veo 2 позволяет детально управлять камерой, освещением и художественным стилем .
- Сравнение с Sora: В социальных сетях (в частности, в X/Twitter) пользователи отмечают, что при одинаковых текстовых запросах Veo 2 зачастую выдает более качественный результат, чем модель от OpenAI .
Параллельно Google закрепила успех в области статических изображений с помощью Imagen 3. Согласно внутренним тестам и оценкам сообщества, эта модель сейчас занимает первое место, опережая Midjourney, DALL-E 3 и Flux . Она отличается умением работать со сложными запросами, такими как «европейский вокзал 1940-х годов в тумане», точно передавая атмосферу и мелкие детали макрофотографии .
🧠 Gemini на вершине: Новый расклад в Chatbot Arena 3:14
Долгое время лидерство в области больших языковых моделей (LLM) удерживала OpenAI, однако ситуация изменилась. В актуальном рейтинге Chatbot Arena (LMSYS) на первую строчку вышла экспериментальная модель Gemini Exp 1206 .
Факты о доминировании Gemini:
- Рейтинг: Gemini Exp 1206 набрала почти на 10 пунктов больше, чем GPT-4o .
- Скорость: Сразу за лидером вплотную следует Gemini 2.0 Flash, демонстрируя, что Google научилась делать модели не только умными, но и крайне быстрыми .
- Конкуренция: Уэс Рот отмечает, что эпоха, когда за лидерство боролись только OpenAI и Anthropic, закончилась — теперь наступил «мир Google» .
👓 Project Astra и экосистема Android XR 3:41
Google активно развивает концепцию универсального ИИ-ассистента в рамках Project Astra. Цель проекта — создать систему, которая может видеть мир через камеру смартфона или умные очки и помогать пользователю в реальном времени .
Функциональные возможности Project Astra включают:
- Мультимодальность: Ассистент может помогать в приготовлении ужина, подсказывая, правильно ли нарезаны овощи, или проводить индивидуальные репетиторские занятия .
- Память и инструменты: Система запоминает детали прошлых разговоров и интегрируется с Google Maps, поиском и Lens .
- Интеграция с «железом»: Новые функции будут внедрены в линейку смартфонов Pixel 9 .
- Android XR (Extended Reality): Google готовит открытую платформу для очков дополненной реальности, которая позволит разработчикам создавать приложения, использующие мощь Gemini 2.0 для навигации, перевода речи в реальном времени и обучения бытовым навыкам (например, ремонту дома или йоге) .
🌐 Агенты вместо браузеров: Project Mariner 7:00
Одним из самых радикальных изменений может стать Project Mariner — ИИ-агент, способный самостоятельно пользоваться интернетом . В отличие от обычных чат-ботов, Mariner берет под контроль браузер Chrome: двигает курсор, нажимает кнопки и заполняет формы .
По словам представителя Google, это знаменует фундаментальный сдвиг в пользовательском опыте (UX):
- Пользователь перестает напрямую взаимодействовать с сайтами .
- ИИ берет на себя рутину: поиск информации о товарах, добавление их в корзину на Etsy или заказ еды .
- Агент может проводить глубокое исследование (например, поиск лучших кроссовок для бега), оформлять заказ и отслеживать доставку по номеру трекинга .
Уэс Рот, ссылаясь на идеи Андрея Карпати, предполагает, что ИИ фактически становится новой операционной системой, где вместо мыши и клавиатуры используется диалог с ассистентом .
🧪 Deep Research и помощники в видеоиграх 8:57
Для решения аналитических задач Google представила Deep Research — агент, который составляет многошаговые планы исследований сложных тем . Этот инструмент напрямую конкурирует с моделью o1 от OpenAI. Пользователь задает сложный вопрос, утверждает предложенный план действий, и через несколько минут получает подробный отчет, основанный на поиске в сети .
В игровой индустрии Google DeepMind сотрудничает с компанией Supercell (создателями Clash of Clans). Разрабатываемый ИИ-агент сможет:
- Анализировать происходящее на экране игрока в реальном времени .
- Давать советы по стратегии (например, какую расстановку войск выбрать для атаки) без прерывания геймплея .
- Помогать навигации в виртуальных мирах, что в дальнейшем должно помочь Google в создании ИИ для управления роботами в физическом мире .
🎙️ Интерактивный NotebookLM и вопросы безопасности 10:54
Инструмент для работы с документами NotebookLM получил функцию Interactive Mode (бета-версия). Теперь пользователи могут буквально «вклиниваться» в сгенерированные аудиоподкасты, задавать вопросы двум ИИ-ведущим и направлять их дискуссию в нужное русло .
В ходе демонстрации этой функции обсуждалась проблема «джейлбрейка» (взлома ограничений) моделей. Были упомянуты следующие техники:
- Best of N: Массированная бомбардировка модели множеством слегка измененных версий одного и того же вредоносного запроса .
- Аудио-атаки: Изменение скорости, высоты голоса или добавление фонового шума к голосовому запросу для обхода фильтров безопасности .
Уэс Рот подчеркивает, что NotebookLM остается бесплатным инструментом, который крайне эффективен для анализа бизнес-документации и обучения .
🏁 Итоги: Почему Google снова впереди? 15:17
Автор видео заключает, что если раньше казалось, будто Google потеряла инициативу, то к концу 2024 года компания совершила мощный рывок. Преимущества Google перед OpenAI и другими конкурентами включают:
- Колоссальные ресурсы: Интеллектуальный капитал DeepMind во главе с Демисом Хассабисом .
- Данные: Доступ к YouTube для обучения видеомоделей (что, вероятно, является ключевым фактором успеха Veo 2) .
- Вертикальная интеграция: Наличие собственного «железа» (чипы, смартфоны Pixel), софта (Android) и огромной базы данных .
По мнению Уэса Рота, Google «ревет на полном ходу», и хотя ходят слухи о секретных разработках OpenAI, на текущий момент именно Google выглядит доминирующей силой в индустрии ИИ .