Google I/O 2024: Как Gemini превращает поиск в персонального ассистента

The Vergecast 360 тыс. 17 мин 4 мин 14.05.2024
Главное

На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которого стоит искусственный интеллект Gemini. Главная идея презентации — переход от простых поисковых запросов к сложным мультимодальным рассуждениям и глубокой интеграции ИИ во все сервисы компании, от Gmail до Google Photos, что должно радикально изменить пользовательский опыт.

🔎 Новая эра поиска: AI Overviews и мультимодальность 0:13

Google официально запускает функцию AI Overviews для всех пользователей в США с последующим расширением на другие страны . Этот инструмент полностью меняет логику работы поисковика, предлагая готовые ответы вместо списка ссылок.

Внедрение мультимодальности позволяет пользователям задавать вопросы самыми разными способами:

🧠 Семейство моделей Gemini 1.5: Прорыв в контексте 1:08

Ключевым техническим достижением Google стало радикальное расширение «контекстного окна» — объема данных, которые нейросеть может обработать за один раз.

Основные анонсы в области моделей:

🤖 Project Astra: Будущее универсальных ассистентов 3:49

Google DeepMind представил прототип Project Astra — универсального ИИ-помощника, способного видеть, слышать и запоминать окружающую обстановку. В демонстрационном ролике ассистент мгновенно распознает части динамика (например, твитер), анализирует программный код на экране монитора и даже подсказывает пользователю, где он оставил свои очки, «вспомнив» их местоположение из видеоряда .

По мнению представителей Google, такие агенты должны обладать проактивностью. В качестве примера был показан «виртуальный коллега» Chip, который интегрируется в рабочие чаты Google Workspace, отслеживает дедлайны, систематизирует информацию и самостоятельно создает документы для решения возникающих проблем .

🖼️ Креативные инструменты и генерация контента 4:43

Компания обновила линейку моделей для творчества:

  1. Imagen 3: Самая фотореалистичная модель Google для генерации изображений, которая значительно лучше справляется с деталями (например, шерстью животных) и текстом внутри картинок .
  2. Veo: Новая модель для создания высококачественного видео в формате 1080p. Она поддерживает различные кинематографические стили и понимает сложные запросы (например, съемка пейзажа с дрона или таймлапс) .
  3. Music AI Sandbox: Набор инструментов для музыкантов, созданный совместно с YouTube, позволяющий трансформировать стили и дорабатывать инструментальные партии .

Для обеспечения безопасности Google расширяет технологию цифровых водяных знаков SynthID на видео и текст, чтобы маркировать контент, созданный ИИ .

📧 Продуктивность в Workspace и Gemini Live 8:13

Мобильное приложение Gmail и сервис Gemini получили функции глубокого анализа почты. Теперь пользователь может попросить ИИ сравнить предложения от разных подрядчиков по ремонту крыши, выбрав лучшее по цене и срокам . Еще более впечатляющая функция — автоматизация рутины: Gemini может найти все чеки в почте за определенный период, сохранить их в папку на Drive и составить сводную таблицу расходов в Google Sheets .

Эволюция взаимодействия с ИИ приведет к появлению Gemini Live — режима живого голосового общения, где нейросеть может «видеть» через камеру смартфона и обсуждать происходящее в реальном времени . Также анонсированы Gems — персональные версии Gemini, которые можно настраивать под конкретные задачи (например, «тренер по письму» или «наставник по программированию») .

🏗️ Инфраструктура и образование 6:13

Для обучения таких мощных моделей Google представила шестое поколение своих чипов — TPU Trillium. Новые процессоры обеспечивают прирост производительности в 4,7 раза по сравнению с предыдущим поколением .

В образовательной сфере компания представила LearnLM — семейство моделей, специально настроенных для эффективного обучения. Функции вроде «Circle to Search» теперь помогают студентам решать сложные физические задачи, не просто давая ответ, а объясняя каждый шаг решения .

Презентация завершилась шуточной статистикой: за 17 минут слово «AI» было произнесено столько раз, что это наверняка стало рекордом для мероприятий компании .

💬 Цитаты

«С Gemini вы делаете это намного проще. Скажем, вы на парковке и готовы оплатить... нейросеть просто скажет вам номер вашего автомобиля.»

Спикер презентации 00:26

«Мы внедряем этот полностью обновленный опыт AI Overviews для всех в США на этой неделе.»

Сундар Пичаи 00:13

«Trillium обеспечивает улучшение вычислительной производительности на чип в 4,7 раза по сравнению с предыдущим поколением.»

Спикер презентации 06:25
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Контекстное окно
Максимальный объем данных (текст, код, видео), который модель ИИ может удержать в «памяти» при обработке одного запроса.
Токен
Минимальная единица текста, которую обрабатывает нейросеть (примерно 0,75 слова).
Мультимодальность
Способность системы ИИ воспринимать и обрабатывать информацию разных типов: текст, изображения, аудио и видео одновременно.
TPU (Tensor Processing Unit)
Специализированные микросхемы, разработанные Google для ускорения задач машинного обучения.
📊 Цифры
🗓 Хронология
  1. Май 2024 Запуск AI Overviews в США и анонс моделей Gemini 1.5 Flash и Pro.
  2. Июнь 2024 Ожидаемый выход модели нового поколения Gemma 2.
  3. Лето 2024 Запуск функции Ask Photos и режима Gemini Live.
  4. Сентябрь 2024 Выход функций автоматизации чеков для Labs-пользователей.
  5. Конец 2024 Доступность чипов Trillium для облачных клиентов.
⚖️ Другая сторона
Искусственный интеллект Google Gemini Project Astra TPU Trillium Veo Google Workspace