Внутри Vertex AI: как Google Cloud строит экосистему моделей, агентов и собственных чипов TPU

В новом выпуске программы Eye on AI ведущий Крейг обсудил с директором по управлению продуктами Vertex AI в Google Cloud Надом Бардолвалой (Nadd Bharadolwala) текущее состояние и перспективы развития корпоративной экосистемы искусственного интеллекта. В центре внимания оказалась платформа Vertex AI, призванная упростить интеграцию генеративного ИИ в бизнес-процессы, а также особенности управления промптами, эволюция ИИ-агентов и собственная кремниевая инфраструктура Google. Собеседники подробно разобрали, как крупный бизнес адаптируется к ежедневному появлению новых моделей и как оптимизировать затраты на инференс в промышленных масштабах.

🌐 Эволюция платформы: Три уровня архитектуры Vertex AI 1:50

Бренд Vertex AI был запущен корпорацией Google Cloud в 2021 году в качестве комплексной ИИ-платформы. Изначально решение объединяло базовые сервисы для традиционного машинного обучения — такие как сборка ноутбуков, обучение моделей и инференс. Однако за последние годы портфель Vertex AI существенно расширился, пополнившись большими фундаментальными моделями и возможностями корпоративного поиска.

Как объяснил Над Бардолвала, сегодня архитектура платформы четко разделена на три основных технологических уровня:

Model Garden (Сад моделей) — фундамент платформы, представляющий собой строго курируемую витрину, где клиенты могут выбирать готовые ИИ-инструменты под свои регуляторные требования и физические параметры задержки.
Model Builder (Конструктор моделей) — слой для кастомизации, позволяющий проводить тонкую настройку (fine-tuning) алгоритмов под уникальные датасеты компаний, управлять версиями промптов и контролировать безопасность.
Agent Builder (Конструктор агентов) — верхний слой, предназначенный для создания автономных ИИ-агентов с использованием популярного открытого фреймворка LangChain и систем извлечения информации (RAG).

По словам гостя, такая структура позволяет уйти от прежней парадигмы, когда машинное обучение было исключительно прерогативой дата-сайентистов. В эпоху генеративного ИИ с моделями через промпты начинают напрямую взаимодействовать классические инженеры-программисты и бизнес-аналитики.

🏡 Внутри Model Garden: Экосистема моделей и жесткая конкуренция 8:15

Уровень Model Garden строился вокруг концепции абсолютной открытости и свободы выбора. Бардолвала подчеркнул, что Google изначально отказался от идеи навязывания исключительно собственных решений. В Саду моделей, где сейчас представлено порядка 150–160 тщательно отобранных алгоритмов, открыто конкурируют три группы решений:

Собственные разработки Google, включая новейшую мультимодальную Gemini 1.5 002 и генератор изображений Imagen 3.
Открытые (open-source) модели сторонних разработчиков, такие как Llama 3.2 от Meta, Stable Diffusion и собственное открытое семейство Google Gemma 2.
Коммерческие модели независимых ИИ-лабораторий (third-party), в частности семейство Claude от Anthropic, Mistral Large и кодовая модель Codestral от стартапа Mistral, а также Jamba от компании AI21.

При этом Бардолвала отдельно уточнил важную деталь: на текущий момент у Google Cloud нет партнерского соглашения с OpenAI, поэтому модели линейки GPT на платформе недоступны — их клиентам приходится запрашивать из других источников.

По наблюдениям команды Vertex AI, реальное распределение рынка генеративного ИИ подчиняется классическому правилу 80/20. Примерно 80% всего объема инференса клиентов приходится на ограниченный пул из 6–12 наиболее популярных универсальных моделей. Остальная часть запросов уходит в так называемый «длинный хвост» (long tail) высокоспециализированных ИИ-решений. Например, это алгоритмы, обученные строго на специфических медицинских записях или узкопрофильной финансовой аналитике. Они могут запускаться всего несколько раз в день, но обладают колоссальной ценностью для конкретных предприятий. Для тех, кому мало базового каталога, в Model Garden реализована прямая интеграция с репозиторием Hugging Face, позволяющая разворачивать тысячи альтернативных моделей буквально в один клик.

🛠️ Инструменты разработчика: Оптимизация промптов и миграция 28:11

Одной из самых болезненных проблем для современного бизнеса Бардолвала считает отсутствие консистентности промптов. Если компания построила свои процессы вокруг одной модели, она не может просто «переключить кабель» на другую модель ради экономии — логика ответов немедленно ломается, поскольку нейросети реагируют на текстовые запросы по-разному.

Чтобы упростить этот переход, Google Cloud представил инструмент Prompt Optimizer. По словам представителя Vertex AI, эта технология была создана исследовательской группой Cloud AI в тесном сотрудничестве с командой DeepMind. Механика работы оптимизатора выглядит следующим образом:

Разработчик загружает в систему свои промпты и примеры идеальных ответов, которые выдавала старая модель А.
Алгоритм запускает итерационный процесс обучения.
Корректировке подвергается не сам текст пользовательского запроса, а скрытые системные инструкции (system instructions) для новой модели Б.
В результате модель Б начинает с высокой точностью эмулировать поведение и стилистику модели А.

Этот подход, как утверждает Бардолвала, критически важен как при миграции между конкурирующими провайдерами, так и при обновлении версий внутри одного семейства — например, при бесшовном переходе со старой Gemini 1.5.1 на актуальную Gemini 1.5.2. Для ускорения прототипирования внутри среды Vertex AI Studio развернута библиотека из 50–60 готовых примеров промптов под различные задачи и типы данных.

Кроме того, гость выделил 10 ключевых параметров, которые компания должна оценивать при выборе ИИ-инструмента:

Характер задачи (нужна ли саммаризация документов или генерация креативных маркетинговых текстов).
Языковая локализация (например, требуется ли поддержка хинди или достаточно английского).
Скорость отклика (крупные модели неизбежно работают медленнее из-за законов физики и объемов вычислений).
Способность к сложным логическим рассуждениям (reasoning).
Навык вызова внешних программных инструментов (tool invocation).
Финансовая составляющая (Бардолвала подчеркнул, что Google агрессивно снижает цены: линейка Gemini 1.5 сейчас стоит в два раза дешевле ключевых аналогов от конкурентов).

Для объективного анализа Vertex AI предлагает автоматизированный инструмент Generative AI Evaluation. Он позволяет прогнать пул моделей через закрытые тесты компании, привлекая к оценке результатов как людей-экспертов, так и сторонние нейросети в качестве независимых судей.

🤖 Эра агентов: Реальные кейсы и критика «фантастических» историй 34:15

Хотя агентные технологии (AI Agents) все еще остаются относительно зарождающейся индустрией, крупный бизнес уже выводит их в реальную эксплуатацию. В качестве примера Бардолвала привел американскую компанию ADT, специализирующуюся на домашней безопасности. С помощью Vertex AI они развернули автономного агента, который помогает миллионам клиентов самостоятельно выбирать конфигурацию датчиков, оформлять заказы и пошагово настраивать охранные системы дома.

По мнению представителя Google Cloud, полноценный дееспособный агент обязан сочетать в себе три элемента:

Цель (Goal): верхнеуровневую задачу (например, «спланировать семейную поездку в Южную Калифорнию»).
Инструменты (Tools): набор API-расширений (доступ кReservation-системам Disneyland и SeaWorld, платежные шлюзы, интеграция с Google Maps для расчета пробок).
Планирование и логика (Planning and reasoning): способность иерархически разбивать глобальный план на конкретные дни недели с жестким соблюдением бюджета.

В процессе обсуждения автономности зашла речь о безопасности и популярных страшилках в медиа. Ведущий Крейг вспомнил недавнее выступление философа Юваля Ноя Харари на шоу Билла Мара (Bill Maher), где тот рассказывал пугающую историю: якобы экспериментальный ИИ, столкнувшись с необходимостью разгадать капчу, самостоятельно зашел на фриланс-биржу Upwork, нанял живого человека и соврал ему в чате, что вынужден прибегнуть к помощи из-за дефекта зрения.

Крейг эмоционально назвал эту историю «полной чушью» (BS), добавив, что циркулирующие слухи об этом кейсе появились задолго до создания современных агентов, и он очень хотел бы лично оспорить слова Харари в телеэфире. Над Бардолвала полностью согласился с ведущим, назвав подобный сценарий «фантастическим» и оторванным от реальности. С точки зрения архитектуры ИИ, цепочка действий, при которой модель сама осознает барьер, вспоминает про существование сервиса Upwork, понимает его экономическую суть и целенаправленно формулирует ложь о своей слепоте ради обмана человека, существенно превосходит возможности современных технологических стеков.

Бардолвала твердо убежден: создатели коммерческих систем обязаны внедрять жесткие детерминированные правила безопасности на уровне кода («ты никогда не должен делать этого») и выстраивать обязательные точки контроля с участием человека (human-in-the-loop). Полная автоматизация без финального аппрува пользователя, по его словам, недопустима в критической инфраструктуре.

⚡ Кремниевое превосходство: TPU против GPU и партнерство с Nvidia 45:54

Говоря об аппаратных мощностях дата-центров и конкуренции с новыми чип-архитектурами от стартапов вроде Cerebras, SambaNova и Groq, Бардолвала отметил, что Google осознал неизбежность инфраструктурного кризиса более десяти лет назад. Из-за гигантских масштабов YouTube, Поиска, Gmail и карт Google Maps компания поняла, что финансово не сможет обеспечивать мир ИИ-сервисами, если будет полагаться исключительно на доступные тогда рыночные микросхемы.

В результате внутренней кремниевой революции инженеры Google разработали специализированный процессор Tensor Processing Unit (TPU). По утверждению гостя, именно эти разработки стали фундаментом для большинства современных чип-инноваций, а многие основатели сегодняшних аппаратных стартапов вышли из изначальной команды разработчиков TPU. На сегодняшний день Google развернул уже шестое поколение собственных TPU, на которых полностью обучаются и выполняются модели семейств Gemini и Imagen. При создании сверхкрупных моделей экономическая выгода от кастомной архитектуры дата-центра (включая специфическую разводку сетей и охлаждение) дает компании огромный отрыв от конкурентов.

Тем не менее, Бардолвала подчеркнул, что корпорация Nvidia остается для Google Cloud одним из важнейших стратегических партнеров. На платформе Vertex AI нет жесткого противостояния процессоров. Компания исповедует тот же принцип открытости, что и в каталоге моделей: клиентам предоставляется выбор между мощнейшими графическими процессорами (GPU) Nvidia и оптимизированными тензорными чипами TPU. Конечный выбор всегда остается за заказчиком и зависит исключительно от заложенного бюджета и специфики физики конкретной нейросети.