Итоги Google I/O 2024: как Gemini изменит поиск, Android и вашу повседневную жизнь

Wes Roth 40,5 тыс. 28 мин 4 мин 15.05.2024
Главное

На ежегодной конференции Google I/O 2024 технологический гигант представил масштабное обновление своей экосистемы, в центре которой теперь стоит мультимодальная модель Gemini. От прототипов универсальных ИИ-агентов Project Astra до глубокой интеграции в Android и систему поиска — компания демонстрирует свое видение пути к сильному искусственному интеллекту (AGI).

🌌 Project Astra: Универсальный ИИ-агент будущего 0:13

Демис Хассабис, сооснователь DeepMind, заявил, что конечной целью компании, поставленной ещё в 2010 году, является создание сильного искусственного интеллекта (AGI) . Промежуточным, но крайне важным шагом на этом пути стал Project Astra — прототип универсального ИИ-агента, способного воспринимать мир и взаимодействовать с ним в режиме реального времени .

По мнению Хассабиса, идеальный ИИ-ассистент должен быть проактивным, обучаемым и персональным, работая без задержек и пауз . Для достижения такой скорости инженеры Google внедрили технологию непрерывного кодирования видеокадров и кэширования временной шкалы событий для быстрого отзыва информации .

В ходе демонстрации прототип показал впечатляющие возможности:

⚡ Линейка Gemini 1.5: Скорость и бесконечный контекст 4:17

Для разработчиков, нуждающихся в низких задержках и высокой эффективности, Google представила Gemini 1.5 Flash. Сундар Пичаи охарактеризовал её как более легкую и экономичную модель по сравнению с версией Pro, которая при этом сохраняет выдающиеся способности к мультимодальным рассуждениям .

Ключевые технические достижения моделей Gemini:

  1. Контекстное окно: Google официально увеличила окно контекста для Gemini 1.5 Pro до 2 миллионов токенов . По словам Пичаи, это шаг на пути к «бесконечному контексту» .
  2. Обработка данных: Модели способны обрабатывать одновременно тысячи страниц текста, часы аудиозаписей или целые репозитории кода .
  3. Доступность: Gemini 1.5 Pro и Flash с окном в 1 миллион токенов уже доступны в Google AI Studio и Vertex AI .

🔍 Революция поиска: От ссылок к ИИ-агентам 12:39

Лиз Рид, глава поискового направления, представила концепцию «Google делает работу за вас». Поисковик перестает быть просто списком ссылок и превращается в интеллектуального помощника с функцией многошагового рассуждения (multi-step reasoning) .

Основные нововведения в поиске:

🖼️ Ask Photos и NotebookLM: Личный помощник в деталях 6:29

Функция Ask Photos переводит поиск по личным архивам на новый уровень. Вместо подбора ключевых слов пользователь может задать вопрос: «Какой номер моей машины?». Gemini найдет фотографии автомобиля, сопоставит данные и просто выдаст ответ . Также система может составить хронику событий, например, проследить прогресс ребенка в плавании на основе анализа сертификатов, дат и видео .

В инструменте для работы с информацией NotebookLM появилась функция аудио-дискуссий . ИИ генерирует живой диалог двух ведущих на основе загруженных документов. Пользователь может «вклиниться» в разговор и попросить, например, привести пример из баскетбола для ребенка, и модель на лету адаптирует объяснение физических законов .

🏗️ Инфраструктура: Trillium и партнерство с Nvidia 10:27

Масштабирование ИИ требует колоссальных мощностей. Сундар Пичаи отметил, что спрос на вычислительные ресурсы для машинного обучения вырос в миллион раз за последние шесть лет . В ответ на это Google представила:

📱 Android и защита от мошенничества 24:48

Android станет первой мобильной ОС со встроенной мультимодальной моделью Gemini Nano . Это позволяет обрабатывать данные непосредственно на устройстве, обеспечивая приватность. Одной из самых ярких функций стала защита от телефонного мошенничества в реальном времени.

Дэйв, представитель команды Android, продемонстрировал работу системы:

  1. Во время звонка якобы из банка ИИ анализирует разговор .
  2. Как только «сотрудник» просит перевести деньги на «безопасный счет», Gemini Nano распознает паттерн мошенничества .
  3. Пользователь мгновенно получает предупреждение на экран .
  4. Вся обработка аудио происходит локально на телефоне и недоступна серверам Google .

💼 Автоматизация Workspace и создание «Gems» 17:08

Для корпоративных пользователей Google внедряет глубокую автоматизацию в Workspace. ИИ может самостоятельно найти все квитанции в почте, создать папку на Диске, извлечь данные в таблицу и проанализировать расходы .

Также анонсированы «Gems» — настраиваемые версии Gemini. Пользователь может создать себе «гуру йоги», «репетитора по математике» или «соавтора кода», задав инструкции один раз .

В завершение презентации Сундар Пичаи с иронией отметил, что слово «AI» прозвучало со сцены 121 раз . Это не просто статистика, а подтверждение того, что Google окончательно перешла к стратегии «AI-first», стремясь сделать искусственный интеллект полезным для каждого в любой точке мира.

💬 Цитаты

«Мы хотим создать универсального ИИ-агента, который может быть по-настоящему полезным в повседневной жизни.»

Демис Хассабис 00:20

«Google делает работу за вас. Вместо того чтобы собирать информацию по кусочкам, вы получаете мгновенный ответ.»

«Спрос на вычислительные мощности для ML вырос в миллион раз за последние шесть лет.»

Сундар Пичаи 10:40
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Project Astra
Прототип универсального ИИ-агента от DeepMind, способного видеть и слышать мир в реальном времени.
Мультимодальность
Способность модели одновременно обрабатывать разные типы данных: текст, изображения, видео и звук.
TPU (Trillium)
Тензорные процессоры, специализированные чипы Google для ускорения задач машинного обучения.
Контекстное окно
Объем данных (текста, кода, видео), который модель может удерживать в оперативной памяти за один раз.
Gemini Nano
Самая компактная версия модели ИИ, предназначенная для работы непосредственно на мобильных устройствах.
📊 Цифры
🗓 Хронология
  1. 2010 Основание компании DeepMind с целью создания AGI.
  2. Май 2024 Конференция Google I/O, запуск AI Overviews в США.
  3. Лето 2024 Запуск функций Ask Photos и планирования поездок в Gemini Advanced.
  4. Сентябрь 2024 Выход функций автоматизации Workspace для пользователей Labs.
  5. Начало 2025 Появление графических процессоров Nvidia Blackwell в Google Cloud.
⚖️ Другая сторона
Искусственный интеллект Google Gemini Project Astra Sundar Pichai Demis Hassabis Gemini 1.5 Pro