Сундар Пичаи: «Мы переходим от Mobile-First к AI-First»

На ежегодной конференции Google I/O 2017 генеральный директор Google Сундар Пичаи объявил о фундаментальном изменении вектора развития технологического гиганта. В материале, опубликованном на канале «On with Kara Swisher», подробно описывается переход компании от концепции мобильного приоритета (Mobile-First) к тотальной интеграции искусственного интеллекта (AI-First). Этот сдвиг призван полностью перестроить пользовательский опыт, способы взаимодействия с техникой и подходы к обработке данных планетарного масштаба.

🌍 Масштаб экосистемы Google и новое прочтение миссии 0:13

Юбилейная конференция Google I/O собрала более 7 000 очных участников, а прямая трансляция велась на 400 сопутствующих мероприятиях в 85 странах мира. Открывая мероприятие, Сундар Пичаи с иронией вспомнил прошлый год, отметив, что в Википедии упоминались случаи сильных солнечных ожогов у посетителей, поэтому теперь компания бесплатно предоставляет солнцезащитный крем для каждого гостя. Однако за этой легкой атмосферой скрывались масштабные цифры: на протяжении 13 лет работы Пичаи в компании ее ключевая миссия остается неизменной — организация мировой информации и обеспечение удобного доступа к ней для каждого человека.

Для решения сложнейших повседневных задач Google применяет передовые методы компьютерных наук и глубокие технические инсайты. Такой подход позволил масштабировать сразу семь ключевых продуктов компании до отметки более чем в 1 миллиард активных пользователей ежемесячно для каждого.

Текущие показатели вовлеченности аудитории в экосистему Google:

YouTube: видеохостинг насчитывает более 1 миллиарда пользователей, которые ежедневно просматривают свыше 1 миллиарда часов контента.
Google Maps: пользователи по всему миру ежедневно прокладывают и проезжают маршруты общей протяженностью более 1 миллиарда километров.
Google Drive: облачный сервис, запущенный пять лет назад, достиг отметки в 800 миллионов активных пользователей в месяц, а еженедельно в облако загружается более 3 миллиардов объектов.
Google Photos: за два года с момента запуска на базе алгоритмов машинного обучения сервис привлек 500 миллионов активных пользователей, загружающих 1,2 миллиарда фотографий ежедневно.
Android: экосистема мобильной операционной системы официально преодолела исторический рубеж в 2 миллиарда активных устройств по всему миру.

🔄 Великий сдвиг: от эпохи Mobile-First к AI-First 2:59

По мнению Сундара Пичаи, современный IT-сектор переживает очередную важнейшую эволюцию — смену парадигмы Mobile-First на подход AI-First. В свое время мобильная революция заставила разработчиков полностью переосмыслить интерфейсы и модели взаимодействия, внедрив мультитач-жесты, геолокацию, цифровую идентичность и мобильные платежи. Сегодня аналогичная трансформация происходит под влиянием машинного обучения, которое планомерно интегрируется во все ключевые сервисы Google.

Примеры текущего использования машинного обучения в продуктах:

Google Search: алгоритмы ранжирования поисковой выдачи теперь изменены с использованием нейросетей.
Google Maps: функция Street View автоматически распознает вывески ресторанов и дорожные знаки.
Duo: сервис видеозвонков применяет ИИ для оптимизации качества связи в условиях крайне низкой пропускной способности сети.
Gmail: функция Smart Reply (умный ответ), ранее показавшая отличные результаты в мессенджере Allo, теперь развертывается для 1 миллиарда пользователей почтового сервиса.

Алгоритмы Smart Reply способны самостоятельно анализировать контекст входящего письма и мгновенно предлагать естественные варианты ответов, обучаясь вести диалог в привычной для человека манере.

🗣️ Новые модальности: эволюция голоса и технология Neural Beam Forming 4:33

Глава Google подчеркивает, что с развитием платформ кардинально меняются и способы взаимодействия человека с вычислительной техникой. Если мобильный сдвиг принес мультитач-экраны взамен клавиатуры и мыши, то в мире победившего искусственного интеллекта ключевыми модальностями становятся голос и зрение. Люди начинают общаться с компьютерами более естественным и иммерсивным путем.

Точность распознавания речи компьютерами демонстрирует стремительный прогресс. Уровень ошибок (word error rate) непрерывно снижается даже при наличии сильного внешнего шума, что позволяет эффективно использовать Google Assistant на смартфонах и умных колонках Google Home.

Инженерам удалось совершить прорыв в аппаратном обеспечении за счет софта. Изначально команда разработчиков планировала встроить в корпус Google Home восемь микрофонов для точного определения направления звука. Однако благодаря внедрению глубокого обучения и специализированной технологии neural beam forming (нейронное формирование луча) инженерам удалось сократить количество физических микрофонов всего до двух без малейшей потери качества распознавания. Кроме того, внедрение ИИ позволило реализовать поддержку многопользовательского режима: устройство способно распознавать до шести разных голосов в одном доме, индивидуально настраивая ответы для каждого члена семьи.

👁️ Компьютерное зрение и запуск Google Lens 6:05

Параллельно с голосовыми интерфейсами тектонические сдвиги происходят в сфере компьютерного зрения. По заявлению Сундара Пичаи, современные системы распознавания изображений в определенных задачах уже превосходят по точности человека. В смартфонах Google Pixel возможности ИИ используются для автоматического устранения шумов на фотографиях, сделанных при слабом освещении. В ближайшем будущем компания обещает внедрить алгоритм автоматического удаления нежелательных препятствий с готовых снимков, например, сетчатого забора, мешающего разглядеть ребенка на бейсбольном матче.

Главным продуктовым анонсом в этой области стал запуск инициативы Google Lens. Это набор вычислительных возможностей на базе компьютерного зрения, который понимает, на что именно смотрит пользователь, и помогает мгновенно совершить целевое действие на основе этой информации. Первоначально инструмент появится в Google Assistant и Google Photos, а затем будет интегрирован в другие приложения.

Сценарии применения Google Lens, выделенные в презентации:

Идентификация объектов: наведя камеру смартфона на цветок, пользователь может мгновенно узнать его точное название, что, как в шутку отметил страдающий аллергией Пичаи, крайне полезно для его здоровья.
Автоматическая авторизация: вместо того чтобы лезть под стол и вручную переписывать сложный пароль с наклейки Wi-Fi роутера, достаточно направить на нее камеру, и смартфон сам подключится к сети.
Контекстный поиск в городе: при наведении камеры на улицу с ресторанами система сопоставляет геолокацию с базой знаний Knowledge Graph и выводит на экран актуальную информацию о заведениях, мимо которых идет человек.

⚡ Вычислительная инфраструктура: Cloud TPU и суперкомпьютеры нового поколения 8:49

Успех Google в веб-поиске когда-то был обусловлен созданием уникальной архитектуры дата-центров, спроектированных под текстовые веб-страницы. Наступление эпохи ИИ потребовало от компании радикального пересмотра аппаратной инфраструктуры и создания дата-центров нового типа — AI-first data centers.

Годом ранее Google представила Tensor Processing Units (TPU) — кастомные процессоры, созданные специально для машинного обучения. Они оказались в 15–30 раз быстрее и в 30–80 раз энергоэффективнее стандартных центральных (CPU) и графических (GPU) процессоров того времени. Именно эти чипы обеспечили вычислительную мощность нейросети AlphaGo во время ее исторического матча против чемпиона Ли Седоля.

Пичаи пояснил, что машинное обучение состоит из двух ресурсоемких компонентов:

Обучение (Training) — процесс создания и настройки нейросети, требующий колоссальных вычислительных мощностей. Например, для обучения одной модели машинного перевода требуется обработать более 3 миллиардов слов в течение недели на 100 графических процессорах.
Вывод (Inference) — работа обученной сети в режиме реального времени (например, мгновенное распознавание кошки или собаки на фотографии).

Первое поколение TPU было оптимизировано исключительно под инференс. В рамках I/O 2017 Сундар Пичаи официально анонсировал второе поколение процессоров — Cloud TPU, которые эффективно справляются как с выводом, так и со сложнейшим обучением моделей.

Одна плата Cloud TPU содержит четыре чипа и способна выполнять 180 триллионов операций с плавающей запятой в секунду (FLOPS). Благодаря модульной архитектуре платы можно объединять в суперкомпьютерные кластеры — TPU Pods, состоящие из 64 плат. Суммарная мощность такого «пода» достигает 11,5 петафлопс, что является важнейшим прорывом для ИИ-инфраструктуры. С сегодняшнего дня Cloud TPU становятся доступны коммерческим клиентам через платформу Google Compute Engine в рамках Google Cloud, которая стремится стать лучшим облачным решением для машинного обучения, сочетая процессоры от Intel, графические ускорители от NVIDIA и собственные чипы Google.