# Google против OpenAI: Почему DeepMind захватил лидерство в 2024 году

Источник: https://www.youtube.com/watch?v=5YVSBbCJDHs
Канал: Wes Roth
Опубликовано: 19.12.2024

---

Компания Google стремительно возвращает себе лидерство в гонке искусственного интеллекта, представляя решения, которые превосходят продукты OpenAI, Meta и Anthropic в ключевых категориях. В новом обзоре Уэс Рот анализирует масштабное наступление Google DeepMind по всем фронтам: от генерации видео и изображений до создания автономных веб-агентов и систем «глубокого исследования».

## 🎬 Видео и изображения: Veo 2 и Imagen 3 выходят в лидеры
[[JUMP:00:26]]

Главным событием недели стал анонс Veo 2 — современной модели генерации видео от Google, способной создавать контент в разрешении 4K с высокой степенью реализма [0:26]. По мнению Уэса Рота, эта модель превосходит все существующие аналоги, включая Meta Movie Gen, Kling 1.5, Luma Dream Machine и даже долгожданную Sora Turbo от OpenAI [0:39].

Ключевые особенности Veo 2:

*   **Понимание физики:** Модель демонстрирует выдающиеся способности в интерпретации физических взаимодействий, что делает движения в кадре более естественными, чем у конкурентов [0:52].
*   **Точность промптов:** Veo 2 позволяет детально управлять камерой, освещением и художественным стилем [1:06].
*   **Сравнение с Sora:** В социальных сетях (в частности, в X/Twitter) пользователи отмечают, что при одинаковых текстовых запросах Veo 2 зачастую выдает более качественный результат, чем модель от OpenAI [1:18].

Параллельно Google закрепила успех в области статических изображений с помощью Imagen 3. Согласно внутренним тестам и оценкам сообщества, эта модель сейчас занимает первое место, опережая Midjourney, DALL-E 3 и Flux [2:47]. Она отличается умением работать со сложными запросами, такими как «европейский вокзал 1940-х годов в тумане», точно передавая атмосферу и мелкие детали макрофотографии [1:44].

## 🧠 Gemini на вершине: Новый расклад в Chatbot Arena
[[JUMP:03:14]]

Долгое время лидерство в области больших языковых моделей (LLM) удерживала OpenAI, однако ситуация изменилась. В актуальном рейтинге Chatbot Arena (LMSYS) на первую строчку вышла экспериментальная модель Gemini Exp 1206 [3:14].

Факты о доминировании Gemini:

*   **Рейтинг:** Gemini Exp 1206 набрала почти на 10 пунктов больше, чем GPT-4o [3:28].
*   **Скорость:** Сразу за лидером вплотную следует Gemini 2.0 Flash, демонстрируя, что Google научилась делать модели не только умными, но и крайне быстрыми [3:28].
*   **Конкуренция:** Уэс Рот отмечает, что эпоха, когда за лидерство боролись только OpenAI и Anthropic, закончилась — теперь наступил «мир Google» [3:41].

## 👓 Project Astra и экосистема Android XR
[[JUMP:03:41]]

Google активно развивает концепцию универсального ИИ-ассистента в рамках Project Astra. Цель проекта — создать систему, которая может видеть мир через камеру смартфона или умные очки и помогать пользователю в реальном времени [3:55].

Функциональные возможности Project Astra включают:

*   **Мультимодальность:** Ассистент может помогать в приготовлении ужина, подсказывая, правильно ли нарезаны овощи, или проводить индивидуальные репетиторские занятия [4:21].
*   **Память и инструменты:** Система запоминает детали прошлых разговоров и интегрируется с Google Maps, поиском и Lens [4:08].
*   **Интеграция с «железом»:** Новые функции будут внедрены в линейку смартфонов Pixel 9 [4:47].
*   **Android XR (Extended Reality):** Google готовит открытую платформу для очков дополненной реальности, которая позволит разработчикам создавать приложения, использующие мощь Gemini 2.0 для навигации, перевода речи в реальном времени и обучения бытовым навыкам (например, ремонту дома или йоге) [6:09].

## 🌐 Агенты вместо браузеров: Project Mariner
[[JUMP:07:00]]

Одним из самых радикальных изменений может стать Project Mariner — ИИ-агент, способный самостоятельно пользоваться интернетом [7:00]. В отличие от обычных чат-ботов, Mariner берет под контроль браузер Chrome: двигает курсор, нажимает кнопки и заполняет формы [7:13].

По словам представителя Google, это знаменует фундаментальный сдвиг в пользовательском опыте (UX):

1.  Пользователь перестает напрямую взаимодействовать с сайтами [8:07].
2.  ИИ берет на себя рутину: поиск информации о товарах, добавление их в корзину на Etsy или заказ еды [7:13].
3.  Агент может проводить глубокое исследование (например, поиск лучших кроссовок для бега), оформлять заказ и отслеживать доставку по номеру трекинга [8:19].

Уэс Рот, ссылаясь на идеи Андрея Карпати, предполагает, что ИИ фактически становится новой операционной системой, где вместо мыши и клавиатуры используется диалог с ассистентом [7:41].

## 🧪 Deep Research и помощники в видеоиграх
[[JUMP:08:57]]

Для решения аналитических задач Google представила Deep Research — агент, который составляет многошаговые планы исследований сложных тем [9:09]. Этот инструмент напрямую конкурирует с моделью o1 от OpenAI. Пользователь задает сложный вопрос, утверждает предложенный план действий, и через несколько минут получает подробный отчет, основанный на поиске в сети [9:34].

В игровой индустрии Google DeepMind сотрудничает с компанией Supercell (создателями Clash of Clans). Разрабатываемый ИИ-агент сможет:

*   Анализировать происходящее на экране игрока в реальном времени [10:02].
*   Давать советы по стратегии (например, какую расстановку войск выбрать для атаки) без прерывания геймплея [10:16].
*   Помогать навигации в виртуальных мирах, что в дальнейшем должно помочь Google в создании ИИ для управления роботами в физическом мире [10:41].

## 🎙️ Интерактивный NotebookLM и вопросы безопасности
[[JUMP:10:54]]

Инструмент для работы с документами NotebookLM получил функцию Interactive Mode (бета-версия). Теперь пользователи могут буквально «вклиниваться» в сгенерированные аудиоподкасты, задавать вопросы двум ИИ-ведущим и направлять их дискуссию в нужное русло [11:49].

В ходе демонстрации этой функции обсуждалась проблема «джейлбрейка» (взлома ограничений) моделей. Были упомянуты следующие техники:

*   **Best of N:** Массированная бомбардировка модели множеством слегка измененных версий одного и того же вредоносного запроса [12:42].
*   **Аудио-атаки:** Изменение скорости, высоты голоса или добавление фонового шума к голосовому запросу для обхода фильтров безопасности [13:47].

Уэс Рот подчеркивает, что NotebookLM остается бесплатным инструментом, который крайне эффективен для анализа бизнес-документации и обучения [15:05].

## 🏁 Итоги: Почему Google снова впереди?
[[JUMP:15:17]]

Автор видео заключает, что если раньше казалось, будто Google потеряла инициативу, то к концу 2024 года компания совершила мощный рывок. Преимущества Google перед OpenAI и другими конкурентами включают:

*   **Колоссальные ресурсы:** Интеллектуальный капитал DeepMind во главе с Демисом Хассабисом [16:10].
*   **Данные:** Доступ к YouTube для обучения видеомоделей (что, вероятно, является ключевым фактором успеха Veo 2) [16:24].
*   **Вертикальная интеграция:** Наличие собственного «железа» (чипы, смартфоны Pixel), софта (Android) и огромной базы данных [16:24].

По мнению Уэса Рота, Google «ревет на полном ходу», и хотя ходят слухи о секретных разработках OpenAI, на текущий момент именно Google выглядит доминирующей силой в индустрии ИИ [16:37].