Али Роделл из Capital One: „Машинное обучение сегодня — это незрелый софт и ленивый инжиниринг“

The TWIML AI Podcast 586 52 мин 4 мин 17.10.2022
Главное

Построение современных платформ машинного обучения (ML) в крупных корпорациях неизбежно сталкивается с конфликтом между гибкостью инноваций и жесткостью регуляторных требований. Али Роделл, старший директор по ML-инжинирингу в Capital One, в беседе с Сэмом Черрингтоном на подкасте TWIML AI рассказывает, как его команда использует Kubernetes и Kubeflow для создания масштабируемой и безопасной среды разработки моделей в одном из крупнейших банков США.

🏗️ От дата-центров к облачной эластичности 0:00

Али Роделл пришел в сферу машинного обучения пять лет назад, имея за плечами 26 лет опыта в классической разработке ПО и системной инфраструктуре . Его карьера началась еще в эпоху физических дата-центров, что наложило отпечаток на его подход к архитектуре: в основе любой ML-платформы лежат фундаментальные инженерные принципы.

Capital One совершил масштабный переход из собственных центров обработки данных в публичное облако, что стало ключевым фактором успеха. По словам Роделла, облачная среда позволила компании преодолеть инерцию, свойственную крупным организациям и регулируемым отраслям .

Главным преимуществом облака Роделл считает эластичность:

🛠️ Архитектура платформы: Kubernetes как фундамент 8:18

Основная задача команды Роделла — сделать работу дата-сайентистов максимально простой и бесшовной . Платформа должна скрывать сложность инфраструктуры, при этом обеспечивая соблюдение строгих правил безопасности банка.

Платформа Capital One состоит из нескольких уровней:

Под капотом этой системы работают от 30 до 50 различных кластеров Kubernetes, управляемых огромным массивом инфраструктуры AWS . Роделл подчеркивает, что идеальная платформа — это та, о существовании которой пользователь даже не подозревает, пока она работает исправно.

⚖️ Kubeflow и проблема «незрелого» Open Source 27:40

Capital One активно использует Kubeflow, но не как «коробочное» решение, а как набор компонентов, которые приходится серьезно дорабатывать под требования безопасности. Роделл отмечает, что современная экосистема ML всё еще страдает от «ленивого инжиниринга» .

Критический взгляд Роделла на Open Source в ML:

  1. Проблема Root-прав: Многие инструменты, включая системы гиперпараметрической оптимизации (например, Katib), по умолчанию требуют запуска от имени суперпользователя (root). В безопасной среде банка это категорически запрещено и блокируется программно .
  2. Выборочное использование: Команда использует Notebook Provisioner и функционал визуализации пайплайнов из Kubeflow, но заменяет стандартные хранилища артефактов и системы трекинга экспериментов собственными решениями .
  3. Необходимость кастомизации: Из-за жестких ограничений банковской среды практически каждый образ (image) и конфигурация проходят стадию модификации перед внедрением .

Роделл сравнивает текущее состояние ML-инструментов с экосистемой Java 20-летней давности, когда установка любого сервера приложений была мучительным процессом. Он уверен, что индустрия придет к состоянию стабильности, аналогичному apt-get install, но этот путь еще не пройден .

🎇 Как убить кластер: уроки масштабирования 30:06

Одной из самых захватывающих тем беседы стали технические сбои при работе на больших масштабах. Роделл объясняет, что даже Kubernetes имеет свои пределы прочности, когда речь идет о тысячах узлов.

Примеры типичных аварий:

Для минимизации рисков команда внедрила стратегию «сегрегации нагрузок». В истории компании был даже кластер под кодовым названием «Jet Train» (реактивный поезд), где пользователям позволяли работать на максимальных скоростях без ограничений, пока его не пришлось закрыть из-за нестабильности .

🧪 Дисциплина разработки: Модель как программный код 38:09

Роделл настаивает на применении жестких принципов Software Development Life Cycle (SDLC) к машинному обучению, что он называет MDLC (Model Development Life Cycle) .

Основные требования к дата-сайентистам в Capital One:

🔮 Будущее: Индустрия станет проще 49:16

В краткосрочной перспективе Capital One фокусируется на создании еще более высокоуровневых переиспользуемых компонентов (например, готовых шаблонов для XGBoost), чтобы команды не тратили время на настройку стандартных фреймворков .

В долгосрочном плане Али Роделл дает оптимистичный прогноз:

  1. Смерть «хакинга»: Инструменты ML станут более зрелыми и перестанут требовать бесконечной ручной доработки .
  2. Улучшение объяснимости (Explainability): Интеграция инструментов интерпретации моделей непосредственно в процесс их создания позволит ускорить разработку и повысить доверие со стороны регуляторов .
  3. Принцип «фундаментальной тройки»: Несмотря на любые уровни абстракции, инженерам всегда придется помнить о CPU, памяти и дисковом вводе-выводе. По мнению Роделла, эти ограничения останутся с нами навсегда .

Али завершает беседу мыслью о том, что хотя сейчас создание ML-платформ напоминает борьбу с незрелыми технологиями, индустрия неизбежно движется к стандартизации, которая сделает машинное обучение таким же предсказуемым процессом, как и стандартная веб-разработка.

💬 Цитаты

«Вы не можете недооценивать сильную команду DevOps — это не шутка, это констатация факта.»

Али Роделл 10:31

«Многие современные ML-инструменты страдают от того, что я называю ленивым инжинирингом.»

Али Роделл 14:43
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
MDLC
Model Development Life Cycle — жизненный цикл разработки модели, аналог SDLC для машинного обучения.
Control Plane
Центральная нервная система Kubernetes, управляющая состоянием кластера.
etcd
Высоконадёжное распределённое хранилище данных типа «ключ — значение», используемое Kubernetes.
XGBoost
Популярная библиотека градиентного бустинга, часто используемая в банковском скоринге.
📊 Цифры
🗓 Хронология
  1. 5 лет назад Али Роделл присоединился к Capital One и перешел в сферу машинного обучения.
  2. 20+ лет назад Эпоха незрелости экосистемы Java, которую Роделл сравнивает с текущим состоянием ML.
⚖️ Другая сторона
Искусственный интеллект Kubeflow Kubernetes Capital One MLOps Ali Rodell