Баян Брусс из Capital One: Почему трансформеры захватывают табличные данные

The TWIML AI Podcast 3 тыс. 52 мин 4 мин 12.09.2022
Главное

Баян Брусс, старший директор по исследованиям прикладного машинного обучения в Capital One, обсуждает в подкасте TWIML AI трансформацию подходов к работе со структурированными данными. В центре внимания — переход от классических древовидных моделей к глубокому обучению и трансформерам, который обещает не только рост точности, но и качественный скачок в интерпретируемости и интеграции данных.

🏦 Прикладные исследования в Capital One: мост между наукой и продакшеном 0:15

В Capital One команда прикладных исследований под руководством Баяна Брусса выполняет роль фильтра и адаптера для стремительно развивающихся технологий ИИ. По словам гостя, главная сложность заключается в колоссальном разрыве между академическими бенчмарками и реальностью: научные статьи часто базируются на «стерильных» статических наборах данных, в то время как данные реального бизнеса — шумные, грязные и сложные.

Задачей команды Брусса является сокращение времени от научного открытия до внедрения в системы обслуживания клиентов. Для этого они фокусируются на четырех ключевых направлениях:

📊 Почему таблицы — «крепкий орешек» для глубокого обучения? 10:04

Несмотря на триумф глубокого обучения (DL) в обработке изображений и текстов, табличные данные долгое время оставались во власти градиентного бустинга (XGBoost) и случайных лесов. Баян Брусс выделяет три причины такой «задержки»:

  1. Качество базовых моделей: Классические древовидные алгоритмы изначально задали очень высокую планку. В отличие от компьютерного зрения 20-летней давности, где потенциал роста был огромным, в таблицах классика сразу работала хорошо.
  2. Экосистема инструментов: Библиотеки вроде XGBoost и экосистема Python для Data Science сделали классические методы невероятно простыми в использовании.
  3. Отсутствие бенчмарков: В индустрии долго не было аналогов ImageNet для таблиц — больших публичных соревнований, которые стимулировали бы инновации год к году.

Как утверждает гость, исторически считалось, что методы из компьютерного зрения (CV) неприменимы к таблицам из-за отсутствия в последних естественной структуры (например, близость столбцов в таблице не означает их функциональную связь, в отличие от соседних пикселей на фото).

💡 Преимущества Deep Learning над классическим бустингом 14:16

Основной аргумент Брусса в пользу перехода на нейросети — это не столько прирост в долях процентов точности, сколько возможность использовать всю мощь экосистемы Deep Learning.

Одним из ключевых преимуществ гость называет контрфактуальные объяснения. Это метод интерпретации, который отвечает на вопрос: «Что должно было измениться во входных данных, чтобы модель приняла другое решение?». Например, если транзакция помечена как мошенническая, контрфактуальный анализ покажет, какой именно параметр (сумма, место или время) стал решающим. Реализация этого метода значительно упрощается в дифференцируемых моделях (нейросетях), где можно использовать градиенты для поиска кратчайшего пути к изменению классификации.

Кроме того, по мнению Баяна Брусса, DL открывает путь к мультимодальности. Это позволяет объединять табличные данные клиента с его графом транзакций или текстовыми логами в единую архитектуру, обучаемую сквозным образом.

🤖 Архитектура Saint: Трансформеры для строк и столбцов 30:36

Одним из прорывных решений в области табличного DL Брусс считает архитектуру Saint, разработанную в сотрудничестве с Томом Голдштейном из Мэрилендского университета.

Особенности архитектуры Saint:

Хотя исследования показывают, что на малых выборках (до 50 000 примеров) XGBoost все еще доминирует, на больших объемах данных нейросети начинают выигрывать.

🚀 Будущее: Фундаментальные модели для бизнеса 34:45

Баян Брусс предполагает, что табличные данные могут пройти тот же путь, что и NLP: от специфических моделей для каждой задачи к огромным предобученным «фундаментальным моделям».

Однако на этом пути есть серьезные препятствия. В отличие от текста в интернете, табличные данные в разных компаниях крайне гетерогенны. Как отмечает гость, модель, обученная на данных о болезнях, вряд ли поможет предсказать отток банковских клиентов без существенной доработки. Тем не менее, внутри одной индустрии создание «фундаментальных моделей оттока» или «моделей мошенничества» выглядит перспективным.

Главным барьером здесь выступает приватность: банковские и медицинские данные закрыты внутри корпоративных периметров, что делает невозможным сбор единого гигантского датасета, подобного Common Crawl для текстов.

🛠 Проблема инструментов: почему Data Scientist-ы выбирают классику 49:30

Завершая дискуссию, Брусс подчеркивает, что главная проблема Deep Learning в таблицах сегодня — это не точность (паритет с XGBoost уже достигнут), а отсутствие качественного софта.

По словам гостя, дата-сайентисты ценят простоту API (как в Scikit-learn): вызвал .fit(), .predict() и настроил 5-7 понятных гиперпараметров. В мире Deep Learning специалисту приходится отвечать на сотни вопросов: какую архитектуру выбрать, как кодировать признаки, какую выбрать схему регуляризации и размерность эмбеддингов.

Брусс считает, что массовое внедрение трансформеров в бизнес начнется тогда, когда появятся инструменты, скрывающие эту сложность за простым интерфейсом. Capital One активно работает в этом направлении, поддерживая open-source инициативы.

💬 Цитаты

«Табличные данные — это фундаментальная валюта бизнеса, они повсюду.»

Баян Брусс 37:53

«Многие дата-сайентисты не привыкли отвечать на 400 вопросов о параметрах модели, когда им просто нужно получить результат.»

Баян Брусс 51:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Контрфактуальные объяснения
Метод объяснения ИИ, показывающий, какие минимальные изменения данных привели бы к другому результату.
Мультимодальность
Способность модели ИИ одновременно обрабатывать разные типы данных, например текст, изображения и таблицы.
Дифференцируемая модель
Математическая модель (обычно нейросеть), для которой можно вычислить градиенты, что позволяет обучать её методом обратного распространения ошибки.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Capital One Transformers XGBoost Saint Баян Брусс