# Итоги Google I/O 2024: как Gemini изменит поиск, Android и вашу повседневную жизнь

Источник: https://www.youtube.com/watch?v=-csE31ty9K0
Канал: Wes Roth
Опубликовано: 15.05.2024

---

На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которой теперь стоит мультимодальная модель Gemini. От прототипов универсальных ИИ-агентов Project Astra до глубокой интеграции в Android и систему поиска — компания демонстрирует свое видение пути к сильному искусственному интеллекту (AGI).

## 🌌 Project Astra: Универсальный ИИ-агент будущего
[[JUMP:00:13]]

Демис Хассабис, сооснователь DeepMind, заявил, что конечной целью компании, поставленной ещё в 2010 году, является создание сильного искусственного интеллекта (AGI) [0:00]. Промежуточным, но крайне важным шагом на этом пути стал Project Astra — прототип универсального ИИ-агента, способного воспринимать мир и взаимодействовать с ним в режиме реального времени [0:13].

По мнению Хассабиса, идеальный ИИ-ассистент должен быть проактивным, обучаемым и персональным, работая без задержек и пауз [0:41]. Для достижения такой скорости инженеры Google внедрили технологию непрерывного кодирования видеокадров и кэширования временной шкалы событий для быстрого отзыва информации [1:08].

В ходе демонстрации прототип показал впечатляющие возможности:

*   **Пространственное понимание:** Агент мгновенно определил части аудиоколонки («твитер») и узнал район Лондона (Кингс-Кросс) по виду из окна [1:48].
*   **Визуальная память:** Когда пользователь спросил: «Ты помнишь, где я оставил свои очки?», ИИ точно ответил, что они лежат на столе рядом с яблоком [3:07].
*   **Анализ кода:** Агент распознал функции шифрования в коде на экране и предложил способ оптимизации системы [2:28].
*   **Креативность:** По просьбе пользователя ИИ придумал аллитерацию на тему цветных мелков и предложил название для дуэта из мягкой игрушки и зеркала — «Golden Stripes» [2:14].

## ⚡ Линейка Gemini 1.5: Скорость и бесконечный контекст
[[JUMP:04:17]]

Для разработчиков, нуждающихся в низких задержках и высокой эффективности, Google представила Gemini 1.5 Flash. Сундар Пичаи охарактеризовал её как более легкую и экономичную модель по сравнению с версией Pro, которая при этом сохраняет выдающиеся способности к мультимодальным рассуждениям [4:17].

Ключевые технические достижения моделей Gemini:

1.  **Контекстное окно:** Google официально увеличила окно контекста для Gemini 1.5 Pro до 2 миллионов токенов [8:15]. По словам Пичаи, это шаг на пути к «бесконечному контексту» [8:15].
2.  **Обработка данных:** Модели способны обрабатывать одновременно тысячи страниц текста, часы аудиозаписей или целые репозитории кода [7:50].
3.  **Доступность:** Gemini 1.5 Pro и Flash с окном в 1 миллион токенов уже доступны в Google AI Studio и Vertex AI [4:31].

## 🔍 Революция поиска: От ссылок к ИИ-агентам
[[JUMP:12:39]]

Лиз Рид, глава поискового направления, представила концепцию «Google делает работу за вас». Поисковик перестает быть просто списком ссылок и превращается в интеллектуального помощника с функцией многошагового рассуждения (multi-step reasoning) [13:20].

Основные нововведения в поиске:

*   **AI Overviews:** Генеративные ответы на сложные запросы запускаются для всех пользователей в США [16:16].
*   **Многошаговое планирование:** Теперь можно попросить Google найти йога-студию в конкретном районе Бостона, показать их предложения для новичков и рассчитать время в пути пешком — всё в одном запросе [13:20].
*   **ИИ-организованные страницы:** Результаты поиска будут автоматически группироваться по кластерам (например, рестораны с живой музыкой или историческим шармом), создавая динамическую страницу специально под запрос пользователя [14:29].
*   **Видео-поиск:** Пользователи смогут загружать видео с проблемой (например, неисправный проигрыватель винила) и задавать вопрос голосом. ИИ проанализирует видео покадрово, определит модель устройства и предложит решение [15:34].

## 🖼️ Ask Photos и NotebookLM: Личный помощник в деталях
[[JUMP:06:29]]

Функция Ask Photos переводит поиск по личным архивам на новый уровень. Вместо подбора ключевых слов пользователь может задать вопрос: «Какой номер моей машины?». Gemini найдет фотографии автомобиля, сопоставит данные и просто выдаст ответ [06:45]. Также система может составить хронику событий, например, проследить прогресс ребенка в плавании на основе анализа сертификатов, дат и видео [07:10].

В инструменте для работы с информацией NotebookLM появилась функция аудио-дискуссий [08:39]. ИИ генерирует живой диалог двух ведущих на основе загруженных документов. Пользователь может «вклиниться» в разговор и попросить, например, привести пример из баскетбола для ребенка, и модель на лету адаптирует объяснение физических законов [09:49].

## 🏗️ Инфраструктура: Trillium и партнерство с Nvidia
[[JUMP:10:27]]

Масштабирование ИИ требует колоссальных мощностей. Сундар Пичаи отметил, что спрос на вычислительные ресурсы для машинного обучения вырос в миллион раз за последние шесть лет [10:40]. В ответ на это Google представила:

*   **Trillium TPU:** Шестое поколение тензорных процессоров, которые в 4,7 раза производительнее предыдущего поколения [10:53].
*   **Axion CPU:** Первый кастомный процессор Google на базе ARM с лидирующей в индустрии энергоэффективностью [11:21].
*   **Партнерство с Nvidia:** В начале 2025 года в Google Cloud появятся новейшие графические процессоры Blackwell [11:34].

## 📱 Android и защита от мошенничества
[[JUMP:24:48]]

Android станет первой мобильной ОС со встроенной мультимодальной моделью Gemini Nano [25:54]. Это позволяет обрабатывать данные непосредственно на устройстве, обеспечивая приватность. Одной из самых ярких функций стала защита от телефонного мошенничества в реальном времени.

Дэйв, представитель команды Android, продемонстрировал работу системы:

1.  Во время звонка якобы из банка ИИ анализирует разговор [26:48].
2.  Как только «сотрудник» просит перевести деньги на «безопасный счет», Gemini Nano распознает паттерн мошенничества [27:13].
3.  Пользователь мгновенно получает предупреждение на экран [27:13].
4.  Вся обработка аудио происходит локально на телефоне и недоступна серверам Google [27:26].

## 💼 Автоматизация Workspace и создание «Gems»
[[JUMP:17:08]]

Для корпоративных пользователей Google внедряет глубокую автоматизацию в Workspace. ИИ может самостоятельно найти все квитанции в почте, создать папку на Диске, извлечь данные в таблицу и проанализировать расходы [18:28].

Также анонсированы «Gems» — настраиваемые версии Gemini. Пользователь может создать себе «гуру йоги», «репетитора по математике» или «соавтора кода», задав инструкции один раз [21:20].

В завершение презентации Сундар Пичаи с иронией отметил, что слово «AI» прозвучало со сцены 121 раз [28:07]. Это не просто статистика, а подтверждение того, что Google окончательно перешла к стратегии «AI-first», стремясь сделать искусственный интеллект полезным для каждого в любой точке мира.