Google против OpenAI: Почему DeepMind захватил лидерство в 2024 году

Wes Roth 271 тыс. 17 мин 5 мин 19.12.2024
Главное

Компания Google стремительно возвращает себе лидерство в гонке искусственного интеллекта, представляя решения, которые превосходят продукты OpenAI, Meta и Anthropic в ключевых категориях. В новом обзоре Уэс Рот анализирует масштабное наступление Google DeepMind по всем фронтам: от генерации видео и изображений до создания автономных веб-агентов и систем «глубокого исследования».

🎬 Видео и изображения: Veo 2 и Imagen 3 выходят в лидеры 0:26

Главным событием недели стал анонс Veo 2 — современной модели генерации видео от Google, способной создавать контент в разрешении 4K с высокой степенью реализма . По мнению Уэса Рота, эта модель превосходит все существующие аналоги, включая Meta Movie Gen, Kling 1.5, Luma Dream Machine и даже долгожданную Sora Turbo от OpenAI .

Ключевые особенности Veo 2:

Параллельно Google закрепила успех в области статических изображений с помощью Imagen 3. Согласно внутренним тестам и оценкам сообщества, эта модель сейчас занимает первое место, опережая Midjourney, DALL-E 3 и Flux . Она отличается умением работать со сложными запросами, такими как «европейский вокзал 1940-х годов в тумане», точно передавая атмосферу и мелкие детали макрофотографии .

🧠 Gemini на вершине: Новый расклад в Chatbot Arena 3:14

Долгое время лидерство в области больших языковых моделей (LLM) удерживала OpenAI, однако ситуация изменилась. В актуальном рейтинге Chatbot Arena (LMSYS) на первую строчку вышла экспериментальная модель Gemini Exp 1206 .

Факты о доминировании Gemini:

👓 Project Astra и экосистема Android XR 3:41

Google активно развивает концепцию универсального ИИ-ассистента в рамках Project Astra. Цель проекта — создать систему, которая может видеть мир через камеру смартфона или умные очки и помогать пользователю в реальном времени .

Функциональные возможности Project Astra включают:

🌐 Агенты вместо браузеров: Project Mariner 7:00

Одним из самых радикальных изменений может стать Project Mariner — ИИ-агент, способный самостоятельно пользоваться интернетом . В отличие от обычных чат-ботов, Mariner берет под контроль браузер Chrome: двигает курсор, нажимает кнопки и заполняет формы .

По словам представителя Google, это знаменует фундаментальный сдвиг в пользовательском опыте (UX):

  1. Пользователь перестает напрямую взаимодействовать с сайтами .
  2. ИИ берет на себя рутину: поиск информации о товарах, добавление их в корзину на Etsy или заказ еды .
  3. Агент может проводить глубокое исследование (например, поиск лучших кроссовок для бега), оформлять заказ и отслеживать доставку по номеру трекинга .

Уэс Рот, ссылаясь на идеи Андрея Карпати, предполагает, что ИИ фактически становится новой операционной системой, где вместо мыши и клавиатуры используется диалог с ассистентом .

🧪 Deep Research и помощники в видеоиграх 8:57

Для решения аналитических задач Google представила Deep Research — агент, который составляет многошаговые планы исследований сложных тем . Этот инструмент напрямую конкурирует с моделью o1 от OpenAI. Пользователь задает сложный вопрос, утверждает предложенный план действий, и через несколько минут получает подробный отчет, основанный на поиске в сети .

В игровой индустрии Google DeepMind сотрудничает с компанией Supercell (создателями Clash of Clans). Разрабатываемый ИИ-агент сможет:

🎙️ Интерактивный NotebookLM и вопросы безопасности 10:54

Инструмент для работы с документами NotebookLM получил функцию Interactive Mode (бета-версия). Теперь пользователи могут буквально «вклиниваться» в сгенерированные аудиоподкасты, задавать вопросы двум ИИ-ведущим и направлять их дискуссию в нужное русло .

В ходе демонстрации этой функции обсуждалась проблема «джейлбрейка» (взлома ограничений) моделей. Были упомянуты следующие техники:

Уэс Рот подчеркивает, что NotebookLM остается бесплатным инструментом, который крайне эффективен для анализа бизнес-документации и обучения .

🏁 Итоги: Почему Google снова впереди? 15:17

Автор видео заключает, что если раньше казалось, будто Google потеряла инициативу, то к концу 2024 года компания совершила мощный рывок. Преимущества Google перед OpenAI и другими конкурентами включают:

По мнению Уэса Рота, Google «ревет на полном ходу», и хотя ходят слухи о секретных разработках OpenAI, на текущий момент именно Google выглядит доминирующей силой в индустрии ИИ .

💬 Цитаты

«Похоже, теперь это мир Google.»

«ИИ становится операционной системой: вместо мыши и клавиатуры вы взаимодействуете с ассистентом.»

«Google обладает кэшем, мощью мозга, собственным оборудованием и данными для создания лучших ИИ-продуктов.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
XR (Extended Reality)
Расширенная реальность, объединяющая виртуальную (VR), дополненную (AR) и смешанную реальность.
LLM (Large Language Model)
Большая языковая модель, способная генерировать и понимать текст на естественном языке.
Джейлбрейк (Jailbreak)
Метод обхода ограничений безопасности ИИ-модели для получения запрещенных ответов.
Агент (AI Agent)
Программное обеспечение на базе ИИ, способное автономно выполнять задачи в цифровой среде (например, в браузере).
📊 Цифры
🗓 Хронология
  1. декабрь 2024 Gemini Exp 1206 выходит на первое место в Chatbot Arena.
  2. 2025 Планируемый выход Deep Research в приложении Gemini и релиз новых XR-гарнитур.
  3. декабрь 2024 Анонс Veo 2 и Imagen 3, демонстрирующих превосходство в генерации визуального контента.
⚖️ Другая сторона
Искусственный интеллект Google DeepMind Gemini OpenAI Sora Veo 2 NotebookLM