Мириам Фридель из Capital One: «Команда-единорог важнее, чем специалист-единорог»

The TWIML AI Podcast 503 47 мин 4 мин 30.10.2023
Главное

Доставка систем искусственного интеллекта в условиях жесткого регулирования требует особого баланса между инновационной гибкостью стартапа и строгими стандартами безопасности крупной корпорации. В новом эпизоде подкаста The TWIML AI Podcast Сэм Чаррингтон беседует с Мириам Фридель, старшим директором по машинному обучению в Capital One, о том, как ее команда строит мосты между теоретической наукой и промышленным ML, создавая инструменты, которые упрощают жизнь дата-сайентистам и одновременно удовлетворяют требованиям аудиторов.

🏛️ Архитектура доверия в регулируемой среде 4:13

Работа в крупной финансовой организации накладывает специфические ограничения, которые редко встречаются в мире стартапов. По словам Фридель, ключевым игроком в жизненном цикле модели в Capital One является Model Risk Office (MRO) — подразделение, отвечающее за соблюдение нормативных требований и законов .

Основные аспекты взаимодействия с регулятором включают:

Мириам отмечает, что знание о существовании MRO «с самого начала» помогает командам инкорпорировать требования регулятора в процесс разработки, а не воспринимать их как препятствие в конце пути .

🛠️ Внутренние инструменты: от Rubicon до общих библиотек 5:37

Команда Мириам (около 70 инженеров) фокусируется на создании интерфейса между базовой инфраструктурой (которую строит команда Али Роделла на базе Kubeflow) и конечными пользователями-исследователями . Фридель считает, что их задача — инкапсулировать сложные или рискованные расчеты в проверенные библиотеки.

Среди ключевых продуктов команды:

Фридель приводит пример с «индексом стабильности популяции» (Population Stability Index). В какой-то момент она обнаружила в репозиториях компании семь разных реализаций этого расчета . Централизация таких вычислений снижает вероятность ошибки, которая в регулируемой среде может иметь серьезные последствия .

⚖️ Дилемма «Сделать или купить» и цена владения 27:01

Обсуждая стратегию развития инструментов, Мириам подчеркивает важность оценки долгосрочной стоимости владения (maintenance cost). По ее мнению, разработчики-технологи часто недооценивают затраты на поддержку собственного ПО .

Ее алгоритм принятия решения:

  1. Поиск в Open Source: Есть ли готовое решение с сильным сообществом? Фридель приводит в пример Scikit-learn как эталон инструмента, которому доверяют .
  2. Создание оберток вместо велосипедов: Если существуют хорошие библиотеки (например, Hyperopt или Optuna для оптимизации гиперпараметров), но у них разный API, команда предпочитает создать единый интерфейс (wrapper) поверх них, а не писать свой движок оптимизации .
  3. Внутренняя разработка: Только если потребность уникальна для Capital One или специфична для регуляторных требований .

🦄 Команда как «Единорог» 38:12

Мириам скептически относится к поиску отдельных специалистов-«единорогов», которые знают всё — от глубокой статистики до администрирования Kubernetes. Вместо этого она придерживается стратегии «команды-единорога» .

Идеальный состав команды по мнению Фридель должен включать:

Мириам подчеркивает, что в такой команде критически важна культура открытости, где людям разрешено совершать ошибки и учиться друг у друга .

🚀 Будущее MLOps в эпоху генеративного ИИ 35:48

Фридель признает, что развитие генеративного ИИ и больших языковых моделей (LLM) меняет ландшафт операционализации. По ее мнению, эксплуатация моделей типа Llama 2 или GPT будет требовать иных подходов к MLOps, чем работа с «традиционными» (или «legacy») моделями вроде XGBoost .

Она также затронула тему влияния инструментов вроде GitHub Co-pilot на их работу. Несмотря на потенциал автоматизации написания шаблонного кода, Фридель считает, что в регулируемой среде первичным остается вопрос: «Уверены ли вы, что вычисляете именно то, что думаете?» . Инструменты ИИ могут помочь, но они не снимают ответственности за точность и прозрачность расчетов перед регулятором.

Главный принцип работы команды Фридель — «стимулирование через удобство». Если инструмент плохой — люди не должны его использовать. Задача ML-инженерии — создавать такие продукты, которые дата-сайентисты выбирали бы сами, потому что это делает их работу проще и быстрее .

💬 Цитаты

«Вы не можете ожидать, что какой-то один человек будет знать абсолютно всё. Нужно строить команду, которая сама по себе является единорогом.»

Мириам Фридель 38:12

«Если я построю что-то ужасное, вы не должны это использовать. Мы должны стимулировать использование наших инструментов через их удобство.»

Мириам Фридель 46:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Model Risk Office (MRO)
Специальное подразделение в банке, которое проверяет модели на соответствие законам, отсутствие предвзятости и техническую корректность.
Значения Шепли (Shapley values)
Метод из теории игр, используемый в машинном обучении для объяснения вклада каждого признака в итоговое предсказание модели.
Inner sourcing
Практика применения методов разработки open source (совместный доступ к коду, код-ревью) внутри одной компании.
📊 Цифры
🗓 Хронология
  1. 2006 Мириам Фридель получила степень PhD в области теоретической физики.
  2. 2014 Мириам начала активно заниматься дата-сайенс после переезда в Шарлоттсвилл.
  3. Июль 2020 Мириам Фридель присоединилась к Capital One после работы в стартапе.
  4. Начало 2022 Команда Мириам начала функционировать как общекорпоративное подразделение по созданию ML-инструментов.
⚖️ Другая сторона
Искусственный интеллект Capital One MLOps Kubeflow Rubicon Miriam Friedel