Диша Сингла: «ML-модель — это прежде всего программный продукт»

Демократизация ИИ в Capital One: как автоматизировать ML-процессы 1:19

В индустрии, где темп изменений требует мгновенных решений, машинное обучение становится критически важным инструментом для бизнеса. Диша Сингла (Disha Singla), старший директор по разработке машинного обучения в Capital One, в беседе с ведущим Сэмом Шаррингтоном в подкасте The TWIML AI Podcast рассказала, как ее команда трансформирует подход к созданию ИИ-решений внутри крупной финансовой корпорации. Главная цель группы Data Insights — демократизация машинного обучения, позволяющая аналитикам и инженерам без глубокой научной подготовки создавать высокоэффективные модели для мониторинга и прогнозирования.

🛠 Платформа для «гражданских» специалистов 1:46

По мнению Синглы, существует четкое различие между традиционными специалистами по данным (data scientists) и так называемыми «гражданскими» специалистами по данным (citizen data scientists). Вторые — это аналитики или инженеры, которые знают, где лежат данные и какую задачу нужно решить, но не обязательно стремятся заниматься «ручной» сборкой моделей.

Команда Синглы предоставляет им платформу с библиотеками и компонентами, которые позволяют:

Использовать готовые рабочие процессы (DAG — направленные ациклические графы).
Осуществлять мониторинг временных рядов, детекцию аномалий и прогнозирование.
Применять автоматизированные алгоритмы, прошедшие проверку в офисе по контролю моделей (Model Review Office), что обеспечивает соблюдение внутренних стандартов.

Одним из примеров использования платформы стало решение для команды, занимающейся гибридной рабочей средой. Они используют инструменты для прогнозирования посещаемости офисов, что позволяет оптимизировать логистику и снабжение, включая закупку продуктов для кухни.

🛡 Предотвращение мошенничества: от аномалий к решениям 4:30

Наиболее показательным примером продуктовой эффективности стал кейс с защитой от мошенничества (transactional fraud). Команда по борьбе с фродом обратилась за решением, которое могло бы не просто находить аномалии, но и активно снижать потери и клиентское трение.

Процесс обработки выглядит следующим образом:

Анализ транзакций в пакетном режиме (batch mode).
Применение алгоритмов детекции аномалий для идентификации подозрительных сегментов.
Определение «точек изменения» (change point detection) и проведение анализа первопричин (root cause analysis).
Автоматическая генерация правил, которые внедряются в системы реального времени.

Сингла подчеркивает, что важнейшая задача здесь — минимизация ложноположительных срабатываний (false positives), чтобы не портить клиентский опыт, например, когда карта клиента отклоняется во время обычного похода в ресторан.

⚙️ Инженерный подход к ML-жизненному циклу 17:37

Диша Сингла убеждена, что модель машинного обучения в производстве — это прежде всего программный продукт, который должен проходить через тот же строгий цикл разработки, что и обычное ПО. В условиях работы в регулируемом финансовом секторе, таком как Capital One, к модели предъявляются специфические требования:

Воспроизводимость и аудит: Компания обязана хранить все данные о том, какие параметры и на каких данных обучалась модель, чтобы при проверке регулятором объяснить любое принятое системой решение.
Оборонительное кодирование: Одной из ключевых проблем являются «грязные» данные. Специалисты должны внедрять проверки на уровне кода (например, проверку формата ZIP-кодов или выбросов), чтобы модель не «падала» из-за простых ошибок ввода.
Тестирование: Помимо стандартных тестов (юнит, интеграционных), критически важны тесты на качество данных, контроль дрейфа признаков и кардинальности категорий.

📈 Бизнес-эффективность и будущее ИИ 37:43

Оценка ROI (возврата инвестиций) в ML — сложная задача, так как не каждая модель напрямую приносит деньги. Сингла выделяет три направления ценности: улучшение пользовательского опыта, повышение операционной эффективности и рост выручки. Успешные проекты документируются, а результаты представляются руководству, что способствует дальнейшему выделению ресурсов.

С точки зрения будущего (горизонт 2–5 лет), Сингла отмечает, что Capital One движется в сторону создания целостной ML-экосистемы. Основные векторы развития включают:

Глубокую интеграцию MLOps и наблюдаемости (observability).
Использование графовых нейросетей (Graph ML) и синтетических данных.
Исследования в области автоматизированного обучения (AutoML) и федеративного обучения (Federated Learning).

По словам Синглы, несмотря на высокую сложность и скорость изменений в индустрии, работа в компании, находящейся на «переднем крае» (bleeding edge) технологий, дает возможность постоянно учиться и создавать решения, реально влияющие на жизнь клиентов.