Google I/O 2024: Как Gemini превращает поиск в персонального ассистента

На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которого стоит искусственный интеллект Gemini. Главная идея презентации — переход от простых поисковых запросов к сложным мультимодальным рассуждениям и глубокой интеграции ИИ во все сервисы компании, от Gmail до Google Photos, что должно радикально изменить пользовательский опыт.

🔎 Новая эра поиска: AI Overviews и мультимодальность 0:13

Google официально запускает функцию AI Overviews для всех пользователей в США с последующим расширением на другие страны . Этот инструмент полностью меняет логику работы поисковика, предлагая готовые ответы вместо списка ссылок.

Внедрение мультимодальности позволяет пользователям задавать вопросы самыми разными способами:

Через видео: пользователь может направить камеру на неисправный механизм (например, проигрыватель пластинок) и спросить, почему он не работает. ИИ в режиме реального времени проанализирует видео и предложит шаги по устранению неполадок .
Сложное планирование: Google Search теперь поддерживает многошаговые рассуждения. Можно попросить составить план питания на три дня или найти лучшие студии йоги в городе с учетом времени в пути от конкретной точки и наличия приветственных скидок .
Интеграция с бытом: ИИ может помочь найти номерной знак машины по фотографиям, анализируя контекст посещения парковок , или отследить прогресс ребенка в занятиях плаванием, отличая тренировки в бассейне от отдыха в океане .

🧠 Семейство моделей Gemini 1.5: Прорыв в контексте 1:08

Ключевым техническим достижением Google стало радикальное расширение «контекстного окна» — объема данных, которые нейросеть может обработать за один раз.

Основные анонсы в области моделей:

Gemini 1.5 Pro с окном в 1 млн токенов: теперь модель доступна разработчикам по всему миру и пользователям Gemini Advanced . Это позволяет загружать сотни страниц текста, часовые аудиозаписи или огромные репозитории кода.
2 миллиона токенов: Google объявила о расширении окна до 2 млн токенов в будущем, стремясь к концепции «бесконечного контекста» .
Gemini 1.5 Flash: представлена новая, более легкая и быстрая модель, оптимизированная для задач, где критична скорость отклика и низкая стоимость .
Gemma 2 и PaliGemma: анонсировано новое поколение открытых моделей, включая версии для работы с изображениями и текстом .

🤖 Project Astra: Будущее универсальных ассистентов 3:49

Google DeepMind представил прототип Project Astra — универсального ИИ-помощника, способного видеть, слышать и запоминать окружающую обстановку. В демонстрационном ролике ассистент мгновенно распознает части динамика (например, твитер), анализирует программный код на экране монитора и даже подсказывает пользователю, где он оставил свои очки, «вспомнив» их местоположение из видеоряда .

По мнению представителей Google, такие агенты должны обладать проактивностью. В качестве примера был показан «виртуальный коллега» Chip, который интегрируется в рабочие чаты Google Workspace, отслеживает дедлайны, систематизирует информацию и самостоятельно создает документы для решения возникающих проблем .

🖼️ Креативные инструменты и генерация контента 4:43

Компания обновила линейку моделей для творчества:

Imagen 3: Самая фотореалистичная модель Google для генерации изображений, которая значительно лучше справляется с деталями (например, шерстью животных) и текстом внутри картинок .
Veo: Новая модель для создания высококачественного видео в формате 1080p. Она поддерживает различные кинематографические стили и понимает сложные запросы (например, съемка пейзажа с дрона или таймлапс) .
Music AI Sandbox: Набор инструментов для музыкантов, созданный совместно с YouTube, позволяющий трансформировать стили и дорабатывать инструментальные партии .

Для обеспечения безопасности Google расширяет технологию цифровых водяных знаков SynthID на видео и текст, чтобы маркировать контент, созданный ИИ .

📧 Продуктивность в Workspace и Gemini Live 8:13

Мобильное приложение Gmail и сервис Gemini получили функции глубокого анализа почты. Теперь пользователь может попросить ИИ сравнить предложения от разных подрядчиков по ремонту крыши, выбрав лучшее по цене и срокам . Еще более впечатляющая функция — автоматизация рутины: Gemini может найти все чеки в почте за определенный период, сохранить их в папку на Drive и составить сводную таблицу расходов в Google Sheets .

Эволюция взаимодействия с ИИ приведет к появлению Gemini Live — режима живого голосового общения, где нейросеть может «видеть» через камеру смартфона и обсуждать происходящее в реальном времени . Также анонсированы Gems — персональные версии Gemini, которые можно настраивать под конкретные задачи (например, «тренер по письму» или «наставник по программированию») .

🏗️ Инфраструктура и образование 6:13

Для обучения таких мощных моделей Google представила шестое поколение своих чипов — TPU Trillium. Новые процессоры обеспечивают прирост производительности в 4,7 раза по сравнению с предыдущим поколением .

В образовательной сфере компания представила LearnLM — семейство моделей, специально настроенных для эффективного обучения. Функции вроде «Circle to Search» теперь помогают студентам решать сложные физические задачи, не просто давая ответ, а объясняя каждый шаг решения .

Презентация завершилась шуточной статистикой: за 17 минут слово «AI» было произнесено столько раз, что это наверняка стало рекордом для мероприятий компании .