# Google I/O 2024: Как Gemini превращает поиск в персонального ассистента

Источник: https://www.youtube.com/watch?v=MzHCWZB5ZpE
Канал: The Vergecast
Опубликовано: 14.05.2024

---

На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которого стоит искусственный интеллект Gemini. Главная идея презентации — переход от простых поисковых запросов к сложным мультимодальным рассуждениям и глубокой интеграции ИИ во все сервисы компании, от Gmail до Google Photos, что должно радикально изменить пользовательский опыт.

## 🔎 Новая эра поиска: AI Overviews и мультимодальность
[[JUMP:0:13]]

Google официально запускает функцию AI Overviews для всех пользователей в США с последующим расширением на другие страны [0:13]. Этот инструмент полностью меняет логику работы поисковика, предлагая готовые ответы вместо списка ссылок.

Внедрение мультимодальности позволяет пользователям задавать вопросы самыми разными способами:

*   **Через видео:** пользователь может направить камеру на неисправный механизм (например, проигрыватель пластинок) и спросить, почему он не работает. ИИ в режиме реального времени проанализирует видео и предложит шаги по устранению неполадок [0:13:46]. 
*   **Сложное планирование:** Google Search теперь поддерживает многошаговые рассуждения. Можно попросить составить план питания на три дня или найти лучшие студии йоги в городе с учетом времени в пути от конкретной точки и наличия приветственных скидок [6:37].
*   **Интеграция с бытом:** ИИ может помочь найти номерной знак машины по фотографиям, анализируя контекст посещения парковок [0:26], или отследить прогресс ребенка в занятиях плаванием, отличая тренировки в бассейне от отдыха в океане [0:41].

## 🧠 Семейство моделей Gemini 1.5: Прорыв в контексте
[[JUMP:1:08]]

Ключевым техническим достижением Google стало радикальное расширение «контекстного окна» — объема данных, которые нейросеть может обработать за один раз.

Основные анонсы в области моделей:

*   **Gemini 1.5 Pro с окном в 1 млн токенов:** теперь модель доступна разработчикам по всему миру и пользователям Gemini Advanced [1:20]. Это позволяет загружать сотни страниц текста, часовые аудиозаписи или огромные репозитории кода.
*   **2 миллиона токенов:** Google объявила о расширении окна до 2 млн токенов в будущем, стремясь к концепции «бесконечного контекста» [1:49].
*   **Gemini 1.5 Flash:** представлена новая, более легкая и быстрая модель, оптимизированная для задач, где критична скорость отклика и низкая стоимость [3:35].
*   **Gemma 2 и PaliGemma:** анонсировано новое поколение открытых моделей, включая версии для работы с изображениями и текстом [15:45].

## 🤖 Project Astra: Будущее универсальных ассистентов
[[JUMP:3:49]]

Google DeepMind представил прототип Project Astra — универсального ИИ-помощника, способного видеть, слышать и запоминать окружающую обстановку. В демонстрационном ролике ассистент мгновенно распознает части динамика (например, твитер), анализирует программный код на экране монитора и даже подсказывает пользователю, где он оставил свои очки, «вспомнив» их местоположение из видеоряда [3:49].

По мнению представителей Google, такие агенты должны обладать проактивностью. В качестве примера был показан «виртуальный коллега» Chip, который интегрируется в рабочие чаты Google Workspace, отслеживает дедлайны, систематизирует информацию и самостоятельно создает документы для решения возникающих проблем [10:16].

## 🖼️ Креативные инструменты и генерация контента
[[JUMP:4:43]]

Компания обновила линейку моделей для творчества:

1.  **Imagen 3:** Самая фотореалистичная модель Google для генерации изображений, которая значительно лучше справляется с деталями (например, шерстью животных) и текстом внутри картинок [4:55].
2.  **Veo:** Новая модель для создания высококачественного видео в формате 1080p. Она поддерживает различные кинематографические стили и понимает сложные запросы (например, съемка пейзажа с дрона или таймлапс) [5:22]. 
3.  **Music AI Sandbox:** Набор инструментов для музыкантов, созданный совместно с YouTube, позволяющий трансформировать стили и дорабатывать инструментальные партии [5:08].

Для обеспечения безопасности Google расширяет технологию цифровых водяных знаков **SynthID** на видео и текст, чтобы маркировать контент, созданный ИИ [16:12].

## 📧 Продуктивность в Workspace и Gemini Live
[[JUMP:8:13]]

Мобильное приложение Gmail и сервис Gemini получили функции глубокого анализа почты. Теперь пользователь может попросить ИИ сравнить предложения от разных подрядчиков по ремонту крыши, выбрав лучшее по цене и срокам [8:50]. Еще более впечатляющая функция — автоматизация рутины: Gemini может найти все чеки в почте за определенный период, сохранить их в папку на Drive и составить сводную таблицу расходов в Google Sheets [9:19].

Эволюция взаимодействия с ИИ приведет к появлению **Gemini Live** — режима живого голосового общения, где нейросеть может «видеть» через камеру смартфона и обсуждать происходящее в реальном времени [11:09]. Также анонсированы **Gems** — персональные версии Gemini, которые можно настраивать под конкретные задачи (например, «тренер по письму» или «наставник по программированию») [11:22].

## 🏗️ Инфраструктура и образование
[[JUMP:6:13]]

Для обучения таких мощных моделей Google представила шестое поколение своих чипов — **TPU Trillium**. Новые процессоры обеспечивают прирост производительности в 4,7 раза по сравнению с предыдущим поколением [6:25].

В образовательной сфере компания представила **LearnLM** — семейство моделей, специально настроенных для эффективного обучения. Функции вроде «Circle to Search» теперь помогают студентам решать сложные физические задачи, не просто давая ответ, а объясняя каждый шаг решения [13:33].

Презентация завершилась шуточной статистикой: за 17 минут слово «AI» было произнесено столько раз, что это наверняка стало рекордом для мероприятий компании [16:38].