Итоги Google I/O 2024: как Gemini изменит поиск, Android и вашу повседневную жизнь

На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которой теперь стоит мультимодальная модель Gemini. От прототипов универсальных ИИ-агентов Project Astra до глубокой интеграции в Android и систему поиска — компания демонстрирует свое видение пути к сильному искусственному интеллекту (AGI).

🌌 Project Astra: Универсальный ИИ-агент будущего 0:13

Демис Хассабис, сооснователь DeepMind, заявил, что конечной целью компании, поставленной ещё в 2010 году, является создание сильного искусственного интеллекта (AGI) . Промежуточным, но крайне важным шагом на этом пути стал Project Astra — прототип универсального ИИ-агента, способного воспринимать мир и взаимодействовать с ним в режиме реального времени .

По мнению Хассабиса, идеальный ИИ-ассистент должен быть проактивным, обучаемым и персональным, работая без задержек и пауз . Для достижения такой скорости инженеры Google внедрили технологию непрерывного кодирования видеокадров и кэширования временной шкалы событий для быстрого отзыва информации .

В ходе демонстрации прототип показал впечатляющие возможности:

Пространственное понимание: Агент мгновенно определил части аудиоколонки («твитер») и узнал район Лондона (Кингс-Кросс) по виду из окна .
Визуальная память: Когда пользователь спросил: «Ты помнишь, где я оставил свои очки?», ИИ точно ответил, что они лежат на столе рядом с яблоком .
Анализ кода: Агент распознал функции шифрования в коде на экране и предложил способ оптимизации системы .
Креативность: По просьбе пользователя ИИ придумал аллитерацию на тему цветных мелков и предложил название для дуэта из мягкой игрушки и зеркала — «Golden Stripes» .

⚡ Линейка Gemini 1.5: Скорость и бесконечный контекст 4:17

Для разработчиков, нуждающихся в низких задержках и высокой эффективности, Google представила Gemini 1.5 Flash. Сундар Пичаи охарактеризовал её как более легкую и экономичную модель по сравнению с версией Pro, которая при этом сохраняет выдающиеся способности к мультимодальным рассуждениям .

Ключевые технические достижения моделей Gemini:

Контекстное окно: Google официально увеличила окно контекста для Gemini 1.5 Pro до 2 миллионов токенов . По словам Пичаи, это шаг на пути к «бесконечному контексту» .
Обработка данных: Модели способны обрабатывать одновременно тысячи страниц текста, часы аудиозаписей или целые репозитории кода .
Доступность: Gemini 1.5 Pro и Flash с окном в 1 миллион токенов уже доступны в Google AI Studio и Vertex AI .

🔍 Революция поиска: От ссылок к ИИ-агентам 12:39

Лиз Рид, глава поискового направления, представила концепцию «Google делает работу за вас». Поисковик перестает быть просто списком ссылок и превращается в интеллектуального помощника с функцией многошагового рассуждения (multi-step reasoning) .

Основные нововведения в поиске:

AI Overviews: Генеративные ответы на сложные запросы запускаются для всех пользователей в США .
Многошаговое планирование: Теперь можно попросить Google найти йога-студию в конкретном районе Бостона, показать их предложения для новичков и рассчитать время в пути пешком — всё в одном запросе .
ИИ-организованные страницы: Результаты поиска будут автоматически группироваться по кластерам (например, рестораны с живой музыкой или историческим шармом), создавая динамическую страницу специально под запрос пользователя .
Видео-поиск: Пользователи смогут загружать видео с проблемой (например, неисправный проигрыватель винила) и задавать вопрос голосом. ИИ проанализирует видео покадрово, определит модель устройства и предложит решение .

🖼️ Ask Photos и NotebookLM: Личный помощник в деталях 6:29

Функция Ask Photos переводит поиск по личным архивам на новый уровень. Вместо подбора ключевых слов пользователь может задать вопрос: «Какой номер моей машины?». Gemini найдет фотографии автомобиля, сопоставит данные и просто выдаст ответ . Также система может составить хронику событий, например, проследить прогресс ребенка в плавании на основе анализа сертификатов, дат и видео .

В инструменте для работы с информацией NotebookLM появилась функция аудио-дискуссий . ИИ генерирует живой диалог двух ведущих на основе загруженных документов. Пользователь может «вклиниться» в разговор и попросить, например, привести пример из баскетбола для ребенка, и модель на лету адаптирует объяснение физических законов .

🏗️ Инфраструктура: Trillium и партнерство с Nvidia 10:27

Масштабирование ИИ требует колоссальных мощностей. Сундар Пичаи отметил, что спрос на вычислительные ресурсы для машинного обучения вырос в миллион раз за последние шесть лет . В ответ на это Google представила:

Trillium TPU: Шестое поколение тензорных процессоров, которые в 4,7 раза производительнее предыдущего поколения .
Axion CPU: Первый кастомный процессор Google на базе ARM с лидирующей в индустрии энергоэффективностью .
Партнерство с Nvidia: В начале 2025 года в Google Cloud появятся новейшие графические процессоры Blackwell .

📱 Android и защита от мошенничества 24:48

Android станет первой мобильной ОС со встроенной мультимодальной моделью Gemini Nano . Это позволяет обрабатывать данные непосредственно на устройстве, обеспечивая приватность. Одной из самых ярких функций стала защита от телефонного мошенничества в реальном времени.

Дэйв, представитель команды Android, продемонстрировал работу системы:

Во время звонка якобы из банка ИИ анализирует разговор .
Как только «сотрудник» просит перевести деньги на «безопасный счет», Gemini Nano распознает паттерн мошенничества .
Пользователь мгновенно получает предупреждение на экран .
Вся обработка аудио происходит локально на телефоне и недоступна серверам Google .

💼 Автоматизация Workspace и создание «Gems» 17:08

Для корпоративных пользователей Google внедряет глубокую автоматизацию в Workspace. ИИ может самостоятельно найти все квитанции в почте, создать папку на Диске, извлечь данные в таблицу и проанализировать расходы .

Также анонсированы «Gems» — настраиваемые версии Gemini. Пользователь может создать себе «гуру йоги», «репетитора по математике» или «соавтора кода», задав инструкции один раз .

В завершение презентации Сундар Пичаи с иронией отметил, что слово «AI» прозвучало со сцены 121 раз . Это не просто статистика, а подтверждение того, что Google окончательно перешла к стратегии «AI-first», стремясь сделать искусственный интеллект полезным для каждого в любой точке мира.