На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которой теперь стоит мультимодальная модель Gemini. От прототипов универсальных ИИ-агентов Project Astra до глубокой интеграции в Android и систему поиска — компания демонстрирует свое видение пути к сильному искусственному интеллекту (AGI).
🌌 Project Astra: Универсальный ИИ-агент будущего 0:13
Демис Хассабис, сооснователь DeepMind, заявил, что конечной целью компании, поставленной ещё в 2010 году, является создание сильного искусственного интеллекта (AGI) . Промежуточным, но крайне важным шагом на этом пути стал Project Astra — прототип универсального ИИ-агента, способного воспринимать мир и взаимодействовать с ним в режиме реального времени .
По мнению Хассабиса, идеальный ИИ-ассистент должен быть проактивным, обучаемым и персональным, работая без задержек и пауз . Для достижения такой скорости инженеры Google внедрили технологию непрерывного кодирования видеокадров и кэширования временной шкалы событий для быстрого отзыва информации .
В ходе демонстрации прототип показал впечатляющие возможности:
- Пространственное понимание: Агент мгновенно определил части аудиоколонки («твитер») и узнал район Лондона (Кингс-Кросс) по виду из окна .
- Визуальная память: Когда пользователь спросил: «Ты помнишь, где я оставил свои очки?», ИИ точно ответил, что они лежат на столе рядом с яблоком .
- Анализ кода: Агент распознал функции шифрования в коде на экране и предложил способ оптимизации системы .
- Креативность: По просьбе пользователя ИИ придумал аллитерацию на тему цветных мелков и предложил название для дуэта из мягкой игрушки и зеркала — «Golden Stripes» .
⚡ Линейка Gemini 1.5: Скорость и бесконечный контекст 4:17
Для разработчиков, нуждающихся в низких задержках и высокой эффективности, Google представила Gemini 1.5 Flash. Сундар Пичаи охарактеризовал её как более легкую и экономичную модель по сравнению с версией Pro, которая при этом сохраняет выдающиеся способности к мультимодальным рассуждениям .
Ключевые технические достижения моделей Gemini:
- Контекстное окно: Google официально увеличила окно контекста для Gemini 1.5 Pro до 2 миллионов токенов . По словам Пичаи, это шаг на пути к «бесконечному контексту» .
- Обработка данных: Модели способны обрабатывать одновременно тысячи страниц текста, часы аудиозаписей или целые репозитории кода .
- Доступность: Gemini 1.5 Pro и Flash с окном в 1 миллион токенов уже доступны в Google AI Studio и Vertex AI .
🔍 Революция поиска: От ссылок к ИИ-агентам 12:39
Лиз Рид, глава поискового направления, представила концепцию «Google делает работу за вас». Поисковик перестает быть просто списком ссылок и превращается в интеллектуального помощника с функцией многошагового рассуждения (multi-step reasoning) .
Основные нововведения в поиске:
- AI Overviews: Генеративные ответы на сложные запросы запускаются для всех пользователей в США .
- Многошаговое планирование: Теперь можно попросить Google найти йога-студию в конкретном районе Бостона, показать их предложения для новичков и рассчитать время в пути пешком — всё в одном запросе .
- ИИ-организованные страницы: Результаты поиска будут автоматически группироваться по кластерам (например, рестораны с живой музыкой или историческим шармом), создавая динамическую страницу специально под запрос пользователя .
- Видео-поиск: Пользователи смогут загружать видео с проблемой (например, неисправный проигрыватель винила) и задавать вопрос голосом. ИИ проанализирует видео покадрово, определит модель устройства и предложит решение .
🖼️ Ask Photos и NotebookLM: Личный помощник в деталях 6:29
Функция Ask Photos переводит поиск по личным архивам на новый уровень. Вместо подбора ключевых слов пользователь может задать вопрос: «Какой номер моей машины?». Gemini найдет фотографии автомобиля, сопоставит данные и просто выдаст ответ . Также система может составить хронику событий, например, проследить прогресс ребенка в плавании на основе анализа сертификатов, дат и видео .
В инструменте для работы с информацией NotebookLM появилась функция аудио-дискуссий . ИИ генерирует живой диалог двух ведущих на основе загруженных документов. Пользователь может «вклиниться» в разговор и попросить, например, привести пример из баскетбола для ребенка, и модель на лету адаптирует объяснение физических законов .
🏗️ Инфраструктура: Trillium и партнерство с Nvidia 10:27
Масштабирование ИИ требует колоссальных мощностей. Сундар Пичаи отметил, что спрос на вычислительные ресурсы для машинного обучения вырос в миллион раз за последние шесть лет . В ответ на это Google представила:
- Trillium TPU: Шестое поколение тензорных процессоров, которые в 4,7 раза производительнее предыдущего поколения .
- Axion CPU: Первый кастомный процессор Google на базе ARM с лидирующей в индустрии энергоэффективностью .
- Партнерство с Nvidia: В начале 2025 года в Google Cloud появятся новейшие графические процессоры Blackwell .
📱 Android и защита от мошенничества 24:48
Android станет первой мобильной ОС со встроенной мультимодальной моделью Gemini Nano . Это позволяет обрабатывать данные непосредственно на устройстве, обеспечивая приватность. Одной из самых ярких функций стала защита от телефонного мошенничества в реальном времени.
Дэйв, представитель команды Android, продемонстрировал работу системы:
- Во время звонка якобы из банка ИИ анализирует разговор .
- Как только «сотрудник» просит перевести деньги на «безопасный счет», Gemini Nano распознает паттерн мошенничества .
- Пользователь мгновенно получает предупреждение на экран .
- Вся обработка аудио происходит локально на телефоне и недоступна серверам Google .
💼 Автоматизация Workspace и создание «Gems» 17:08
Для корпоративных пользователей Google внедряет глубокую автоматизацию в Workspace. ИИ может самостоятельно найти все квитанции в почте, создать папку на Диске, извлечь данные в таблицу и проанализировать расходы .
Также анонсированы «Gems» — настраиваемые версии Gemini. Пользователь может создать себе «гуру йоги», «репетитора по математике» или «соавтора кода», задав инструкции один раз .
В завершение презентации Сундар Пичаи с иронией отметил, что слово «AI» прозвучало со сцены 121 раз . Это не просто статистика, а подтверждение того, что Google окончательно перешла к стратегии «AI-first», стремясь сделать искусственный интеллект полезным для каждого в любой точке мира.