Диша Сингла: «ML-модель — это прежде всего программный продукт»

The TWIML AI Podcast 1,2 тыс. 46 мин 3 мин 19.12.2022
Главное

Демократизация ИИ в Capital One: как автоматизировать ML-процессы 1:19

В индустрии, где темп изменений требует мгновенных решений, машинное обучение становится критически важным инструментом для бизнеса. Диша Сингла (Disha Singla), старший директор по разработке машинного обучения в Capital One, в беседе с ведущим Сэмом Шаррингтоном в подкасте The TWIML AI Podcast рассказала, как ее команда трансформирует подход к созданию ИИ-решений внутри крупной финансовой корпорации. Главная цель группы Data Insights — демократизация машинного обучения, позволяющая аналитикам и инженерам без глубокой научной подготовки создавать высокоэффективные модели для мониторинга и прогнозирования.

🛠 Платформа для «гражданских» специалистов 1:46

По мнению Синглы, существует четкое различие между традиционными специалистами по данным (data scientists) и так называемыми «гражданскими» специалистами по данным (citizen data scientists). Вторые — это аналитики или инженеры, которые знают, где лежат данные и какую задачу нужно решить, но не обязательно стремятся заниматься «ручной» сборкой моделей.

Команда Синглы предоставляет им платформу с библиотеками и компонентами, которые позволяют:

Одним из примеров использования платформы стало решение для команды, занимающейся гибридной рабочей средой. Они используют инструменты для прогнозирования посещаемости офисов, что позволяет оптимизировать логистику и снабжение, включая закупку продуктов для кухни.

🛡 Предотвращение мошенничества: от аномалий к решениям 4:30

Наиболее показательным примером продуктовой эффективности стал кейс с защитой от мошенничества (transactional fraud). Команда по борьбе с фродом обратилась за решением, которое могло бы не просто находить аномалии, но и активно снижать потери и клиентское трение.

Процесс обработки выглядит следующим образом:

  1. Анализ транзакций в пакетном режиме (batch mode).
  2. Применение алгоритмов детекции аномалий для идентификации подозрительных сегментов.
  3. Определение «точек изменения» (change point detection) и проведение анализа первопричин (root cause analysis).
  4. Автоматическая генерация правил, которые внедряются в системы реального времени.

Сингла подчеркивает, что важнейшая задача здесь — минимизация ложноположительных срабатываний (false positives), чтобы не портить клиентский опыт, например, когда карта клиента отклоняется во время обычного похода в ресторан.

⚙️ Инженерный подход к ML-жизненному циклу 17:37

Диша Сингла убеждена, что модель машинного обучения в производстве — это прежде всего программный продукт, который должен проходить через тот же строгий цикл разработки, что и обычное ПО. В условиях работы в регулируемом финансовом секторе, таком как Capital One, к модели предъявляются специфические требования:

📈 Бизнес-эффективность и будущее ИИ 37:43

Оценка ROI (возврата инвестиций) в ML — сложная задача, так как не каждая модель напрямую приносит деньги. Сингла выделяет три направления ценности: улучшение пользовательского опыта, повышение операционной эффективности и рост выручки. Успешные проекты документируются, а результаты представляются руководству, что способствует дальнейшему выделению ресурсов.

С точки зрения будущего (горизонт 2–5 лет), Сингла отмечает, что Capital One движется в сторону создания целостной ML-экосистемы. Основные векторы развития включают:

По словам Синглы, несмотря на высокую сложность и скорость изменений в индустрии, работа в компании, находящейся на «переднем крае» (bleeding edge) технологий, дает возможность постоянно учиться и создавать решения, реально влияющие на жизнь клиентов.

💬 Цитаты

«Data science — это привилегия, но это также и ответственность.»

Диша Сингла 32:34

«Лучше быть немного позже, чем выйти в производство и столкнуться с проблемами комплаенса.»

Диша Сингла 26:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Гражданский специалист по данным (Citizen data scientist)
Специалист, который использует инструменты анализа данных и ML, не обладая глубокими знаниями в программировании или статистике.
DAG (Направленный ациклический граф)
Способ представления рабочих процессов, где задачи выполняются в определенной последовательности без циклов.
MLOps
Практика, направленная на автоматизацию и стандартизацию процессов создания, развертывания и поддержки моделей машинного обучения.
Дрейф (Drift)
Изменение статистических свойств целевой переменной или входных данных со временем, что ведет к снижению точности модели.
Кардинальность (Cardinality)
Количество уникальных значений в наборе данных, изменение которого может критически повлиять на работу модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Capital One Disha Singla The TWIML AI Podcast MLOps Data Insights