На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которого стоит искусственный интеллект Gemini. Главная идея презентации — переход от простых поисковых запросов к сложным мультимодальным рассуждениям и глубокой интеграции ИИ во все сервисы компании, от Gmail до Google Photos, что должно радикально изменить пользовательский опыт.
🔎 Новая эра поиска: AI Overviews и мультимодальность 0:13
Google официально запускает функцию AI Overviews для всех пользователей в США с последующим расширением на другие страны . Этот инструмент полностью меняет логику работы поисковика, предлагая готовые ответы вместо списка ссылок.
Внедрение мультимодальности позволяет пользователям задавать вопросы самыми разными способами:
- Через видео: пользователь может направить камеру на неисправный механизм (например, проигрыватель пластинок) и спросить, почему он не работает. ИИ в режиме реального времени проанализирует видео и предложит шаги по устранению неполадок .
- Сложное планирование: Google Search теперь поддерживает многошаговые рассуждения. Можно попросить составить план питания на три дня или найти лучшие студии йоги в городе с учетом времени в пути от конкретной точки и наличия приветственных скидок .
- Интеграция с бытом: ИИ может помочь найти номерной знак машины по фотографиям, анализируя контекст посещения парковок , или отследить прогресс ребенка в занятиях плаванием, отличая тренировки в бассейне от отдыха в океане .
🧠 Семейство моделей Gemini 1.5: Прорыв в контексте 1:08
Ключевым техническим достижением Google стало радикальное расширение «контекстного окна» — объема данных, которые нейросеть может обработать за один раз.
Основные анонсы в области моделей:
- Gemini 1.5 Pro с окном в 1 млн токенов: теперь модель доступна разработчикам по всему миру и пользователям Gemini Advanced . Это позволяет загружать сотни страниц текста, часовые аудиозаписи или огромные репозитории кода.
- 2 миллиона токенов: Google объявила о расширении окна до 2 млн токенов в будущем, стремясь к концепции «бесконечного контекста» .
- Gemini 1.5 Flash: представлена новая, более легкая и быстрая модель, оптимизированная для задач, где критична скорость отклика и низкая стоимость .
- Gemma 2 и PaliGemma: анонсировано новое поколение открытых моделей, включая версии для работы с изображениями и текстом .
🤖 Project Astra: Будущее универсальных ассистентов 3:49
Google DeepMind представил прототип Project Astra — универсального ИИ-помощника, способного видеть, слышать и запоминать окружающую обстановку. В демонстрационном ролике ассистент мгновенно распознает части динамика (например, твитер), анализирует программный код на экране монитора и даже подсказывает пользователю, где он оставил свои очки, «вспомнив» их местоположение из видеоряда .
По мнению представителей Google, такие агенты должны обладать проактивностью. В качестве примера был показан «виртуальный коллега» Chip, который интегрируется в рабочие чаты Google Workspace, отслеживает дедлайны, систематизирует информацию и самостоятельно создает документы для решения возникающих проблем .
🖼️ Креативные инструменты и генерация контента 4:43
Компания обновила линейку моделей для творчества:
- Imagen 3: Самая фотореалистичная модель Google для генерации изображений, которая значительно лучше справляется с деталями (например, шерстью животных) и текстом внутри картинок .
- Veo: Новая модель для создания высококачественного видео в формате 1080p. Она поддерживает различные кинематографические стили и понимает сложные запросы (например, съемка пейзажа с дрона или таймлапс) .
- Music AI Sandbox: Набор инструментов для музыкантов, созданный совместно с YouTube, позволяющий трансформировать стили и дорабатывать инструментальные партии .
Для обеспечения безопасности Google расширяет технологию цифровых водяных знаков SynthID на видео и текст, чтобы маркировать контент, созданный ИИ .
📧 Продуктивность в Workspace и Gemini Live 8:13
Мобильное приложение Gmail и сервис Gemini получили функции глубокого анализа почты. Теперь пользователь может попросить ИИ сравнить предложения от разных подрядчиков по ремонту крыши, выбрав лучшее по цене и срокам . Еще более впечатляющая функция — автоматизация рутины: Gemini может найти все чеки в почте за определенный период, сохранить их в папку на Drive и составить сводную таблицу расходов в Google Sheets .
Эволюция взаимодействия с ИИ приведет к появлению Gemini Live — режима живого голосового общения, где нейросеть может «видеть» через камеру смартфона и обсуждать происходящее в реальном времени . Также анонсированы Gems — персональные версии Gemini, которые можно настраивать под конкретные задачи (например, «тренер по письму» или «наставник по программированию») .
🏗️ Инфраструктура и образование 6:13
Для обучения таких мощных моделей Google представила шестое поколение своих чипов — TPU Trillium. Новые процессоры обеспечивают прирост производительности в 4,7 раза по сравнению с предыдущим поколением .
В образовательной сфере компания представила LearnLM — семейство моделей, специально настроенных для эффективного обучения. Функции вроде «Circle to Search» теперь помогают студентам решать сложные физические задачи, не просто давая ответ, а объясняя каждый шаг решения .
Презентация завершилась шуточной статистикой: за 17 минут слово «AI» было произнесено столько раз, что это наверняка стало рекордом для мероприятий компании .