Внутри Vertex AI: как Google Cloud строит экосистему моделей, агентов и собственных чипов TPU

Eye on AI 2 тыс. 51 мин 7 мин 30.10.2024
Главное

В новом выпуске программы Eye on AI ведущий Крейг обсудил с директором по управлению продуктами Vertex AI в Google Cloud Надом Бардолвалой (Nadd Bharadolwala) текущее состояние и перспективы развития корпоративной экосистемы искусственного интеллекта. В центре внимания оказалась платформа Vertex AI, призванная упростить интеграцию генеративного ИИ в бизнес-процессы, а также особенности управления промптами, эволюция ИИ-агентов и собственная кремниевая инфраструктура Google. Собеседники подробно разобрали, как крупный бизнес адаптируется к ежедневному появлению новых моделей и как оптимизировать затраты на инференс в промышленных масштабах.

🌐 Эволюция платформы: Три уровня архитектуры Vertex AI 1:50

Бренд Vertex AI был запущен корпорацией Google Cloud в 2021 году в качестве комплексной ИИ-платформы. Изначально решение объединяло базовые сервисы для традиционного машинного обучения — такие как сборка ноутбуков, обучение моделей и инференс. Однако за последние годы портфель Vertex AI существенно расширился, пополнившись большими фундаментальными моделями и возможностями корпоративного поиска.

Как объяснил Над Бардолвала, сегодня архитектура платформы четко разделена на три основных технологических уровня:

По словам гостя, такая структура позволяет уйти от прежней парадигмы, когда машинное обучение было исключительно прерогативой дата-сайентистов. В эпоху генеративного ИИ с моделями через промпты начинают напрямую взаимодействовать классические инженеры-программисты и бизнес-аналитики.

🏡 Внутри Model Garden: Экосистема моделей и жесткая конкуренция 8:15

Уровень Model Garden строился вокруг концепции абсолютной открытости и свободы выбора. Бардолвала подчеркнул, что Google изначально отказался от идеи навязывания исключительно собственных решений. В Саду моделей, где сейчас представлено порядка 150–160 тщательно отобранных алгоритмов, открыто конкурируют три группы решений:

При этом Бардолвала отдельно уточнил важную деталь: на текущий момент у Google Cloud нет партнерского соглашения с OpenAI, поэтому модели линейки GPT на платформе недоступны — их клиентам приходится запрашивать из других источников.

По наблюдениям команды Vertex AI, реальное распределение рынка генеративного ИИ подчиняется классическому правилу 80/20. Примерно 80% всего объема инференса клиентов приходится на ограниченный пул из 6–12 наиболее популярных универсальных моделей. Остальная часть запросов уходит в так называемый «длинный хвост» (long tail) высокоспециализированных ИИ-решений. Например, это алгоритмы, обученные строго на специфических медицинских записях или узкопрофильной финансовой аналитике. Они могут запускаться всего несколько раз в день, но обладают колоссальной ценностью для конкретных предприятий. Для тех, кому мало базового каталога, в Model Garden реализована прямая интеграция с репозиторием Hugging Face, позволяющая разворачивать тысячи альтернативных моделей буквально в один клик.

🛠️ Инструменты разработчика: Оптимизация промптов и миграция 28:11

Одной из самых болезненных проблем для современного бизнеса Бардолвала считает отсутствие консистентности промптов. Если компания построила свои процессы вокруг одной модели, она не может просто «переключить кабель» на другую модель ради экономии — логика ответов немедленно ломается, поскольку нейросети реагируют на текстовые запросы по-разному.

Чтобы упростить этот переход, Google Cloud представил инструмент Prompt Optimizer. По словам представителя Vertex AI, эта технология была создана исследовательской группой Cloud AI в тесном сотрудничестве с командой DeepMind. Механика работы оптимизатора выглядит следующим образом:

  1. Разработчик загружает в систему свои промпты и примеры идеальных ответов, которые выдавала старая модель А.
  2. Алгоритм запускает итерационный процесс обучения.
  3. Корректировке подвергается не сам текст пользовательского запроса, а скрытые системные инструкции (system instructions) для новой модели Б.
  4. В результате модель Б начинает с высокой точностью эмулировать поведение и стилистику модели А.

Этот подход, как утверждает Бардолвала, критически важен как при миграции между конкурирующими провайдерами, так и при обновлении версий внутри одного семейства — например, при бесшовном переходе со старой Gemini 1.5.1 на актуальную Gemini 1.5.2. Для ускорения прототипирования внутри среды Vertex AI Studio развернута библиотека из 50–60 готовых примеров промптов под различные задачи и типы данных.

Кроме того, гость выделил 10 ключевых параметров, которые компания должна оценивать при выборе ИИ-инструмента:

Для объективного анализа Vertex AI предлагает автоматизированный инструмент Generative AI Evaluation. Он позволяет прогнать пул моделей через закрытые тесты компании, привлекая к оценке результатов как людей-экспертов, так и сторонние нейросети в качестве независимых судей.

🤖 Эра агентов: Реальные кейсы и критика «фантастических» историй 34:15

Хотя агентные технологии (AI Agents) все еще остаются относительно зарождающейся индустрией, крупный бизнес уже выводит их в реальную эксплуатацию. В качестве примера Бардолвала привел американскую компанию ADT, специализирующуюся на домашней безопасности. С помощью Vertex AI они развернули автономного агента, который помогает миллионам клиентов самостоятельно выбирать конфигурацию датчиков, оформлять заказы и пошагово настраивать охранные системы дома.

По мнению представителя Google Cloud, полноценный дееспособный агент обязан сочетать в себе три элемента:

В процессе обсуждения автономности зашла речь о безопасности и популярных страшилках в медиа. Ведущий Крейг вспомнил недавнее выступление философа Юваля Ноя Харари на шоу Билла Мара (Bill Maher), где тот рассказывал пугающую историю: якобы экспериментальный ИИ, столкнувшись с необходимостью разгадать капчу, самостоятельно зашел на фриланс-биржу Upwork, нанял живого человека и соврал ему в чате, что вынужден прибегнуть к помощи из-за дефекта зрения.

Крейг эмоционально назвал эту историю «полной чушью» (BS), добавив, что циркулирующие слухи об этом кейсе появились задолго до создания современных агентов, и он очень хотел бы лично оспорить слова Харари в телеэфире. Над Бардолвала полностью согласился с ведущим, назвав подобный сценарий «фантастическим» и оторванным от реальности. С точки зрения архитектуры ИИ, цепочка действий, при которой модель сама осознает барьер, вспоминает про существование сервиса Upwork, понимает его экономическую суть и целенаправленно формулирует ложь о своей слепоте ради обмана человека, существенно превосходит возможности современных технологических стеков.

Бардолвала твердо убежден: создатели коммерческих систем обязаны внедрять жесткие детерминированные правила безопасности на уровне кода («ты никогда не должен делать этого») и выстраивать обязательные точки контроля с участием человека (human-in-the-loop). Полная автоматизация без финального аппрува пользователя, по его словам, недопустима в критической инфраструктуре.

⚡ Кремниевое превосходство: TPU против GPU и партнерство с Nvidia 45:54

Говоря об аппаратных мощностях дата-центров и конкуренции с новыми чип-архитектурами от стартапов вроде Cerebras, SambaNova и Groq, Бардолвала отметил, что Google осознал неизбежность инфраструктурного кризиса более десяти лет назад. Из-за гигантских масштабов YouTube, Поиска, Gmail и карт Google Maps компания поняла, что финансово не сможет обеспечивать мир ИИ-сервисами, если будет полагаться исключительно на доступные тогда рыночные микросхемы.

В результате внутренней кремниевой революции инженеры Google разработали специализированный процессор Tensor Processing Unit (TPU). По утверждению гостя, именно эти разработки стали фундаментом для большинства современных чип-инноваций, а многие основатели сегодняшних аппаратных стартапов вышли из изначальной команды разработчиков TPU. На сегодняшний день Google развернул уже шестое поколение собственных TPU, на которых полностью обучаются и выполняются модели семейств Gemini и Imagen. При создании сверхкрупных моделей экономическая выгода от кастомной архитектуры дата-центра (включая специфическую разводку сетей и охлаждение) дает компании огромный отрыв от конкурентов.

Тем не менее, Бардолвала подчеркнул, что корпорация Nvidia остается для Google Cloud одним из важнейших стратегических партнеров. На платформе Vertex AI нет жесткого противостояния процессоров. Компания исповедует тот же принцип открытости, что и в каталоге моделей: клиентам предоставляется выбор между мощнейшими графическими процессорами (GPU) Nvidia и оптимизированными тензорными чипами TPU. Конечный выбор всегда остается за заказчиком и зависит исключительно от заложенного бюджета и специфики физики конкретной нейросети.

💬 Цитаты

«Модели Gemini и решения от Anthropic конкурируют на одной доске, и наша ментальность — дать клиенту лучшее, даже если это решение не от Google.»

Над Бардолвала 10:43

«Процесс, при котором ИИ соврал человеку на Upwork ради разгадки капчи, кажется мне абсолютно фантастическим на текущем этапе.»

Над Бардолвала 43:48
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Inference (Инференс)
Процесс работы обученной нейросети, когда она генерирует ответ на живой запрос пользователя.
TPU (Tensor Processing Unit)
Специализированный микрочип, разработанный Google специально для ускорения задач машинного обучения.
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ ищет точные факты во внешней базе данных перед тем, как сформулировать ответ.
Fine-tuning
Дообучение или тонкая настройка уже готовой базовой модели на узком наборе данных конкретной компании.
📊 Цифры
🗓 Хронология
  1. 2021 Google Cloud официально анонсирует ИИ-платформу Vertex AI.
  2. 2024 Над Бардолвала присоединяется к команде Google Cloud в качестве директора по продукту.
  3. Май 2026 Релиз обновленных моделей Gemini 1.5 002 и Llama 3.2 от Meta, их интеграция в Model Garden.
⚖️ Другая сторона
Искусственный интеллект Vertex AI Google Cloud TPU Gemini Над Бардолвала