Баян Брусс из Capital One: Почему трансформеры захватывают табличные данные

Баян Брусс, старший директор по исследованиям прикладного машинного обучения в Capital One, обсуждает в подкасте TWIML AI трансформацию подходов к работе со структурированными данными. В центре внимания — переход от классических древовидных моделей к глубокому обучению и трансформерам, который обещает не только рост точности, но и качественный скачок в интерпретируемости и интеграции данных.

🏦 Прикладные исследования в Capital One: мост между наукой и продакшеном 0:15

В Capital One команда прикладных исследований под руководством Баяна Брусса выполняет роль фильтра и адаптера для стремительно развивающихся технологий ИИ. По словам гостя, главная сложность заключается в колоссальном разрыве между академическими бенчмарками и реальностью: научные статьи часто базируются на «стерильных» статических наборах данных, в то время как данные реального бизнеса — шумные, грязные и сложные.

Задачей команды Брусса является сокращение времени от научного открытия до внедрения в системы обслуживания клиентов. Для этого они фокусируются на четырех ключевых направлениях:

Графовое машинное обучение (Graph ML): Финансовые транзакции по сути являются графами, где свайп карты создает связь между клиентом и торговой точкой.
Объяснимость и интерпретируемость: Будучи регулируемой организацией, банк обязан понимать, как принимаются решения.
Обнаружение аномалий: Необходимость отражать творческие атаки мошенников, которые постоянно меняют свои паттерны.
Конфиденциальность: Генерация синтетических данных и федеративное обучение для защиты информации клиентов.

📊 Почему таблицы — «крепкий орешек» для глубокого обучения? 10:04

Несмотря на триумф глубокого обучения (DL) в обработке изображений и текстов, табличные данные долгое время оставались во власти градиентного бустинга (XGBoost) и случайных лесов. Баян Брусс выделяет три причины такой «задержки»:

Качество базовых моделей: Классические древовидные алгоритмы изначально задали очень высокую планку. В отличие от компьютерного зрения 20-летней давности, где потенциал роста был огромным, в таблицах классика сразу работала хорошо.
Экосистема инструментов: Библиотеки вроде XGBoost и экосистема Python для Data Science сделали классические методы невероятно простыми в использовании.
Отсутствие бенчмарков: В индустрии долго не было аналогов ImageNet для таблиц — больших публичных соревнований, которые стимулировали бы инновации год к году.

Как утверждает гость, исторически считалось, что методы из компьютерного зрения (CV) неприменимы к таблицам из-за отсутствия в последних естественной структуры (например, близость столбцов в таблице не означает их функциональную связь, в отличие от соседних пикселей на фото).

💡 Преимущества Deep Learning над классическим бустингом 14:16

Основной аргумент Брусса в пользу перехода на нейросети — это не столько прирост в долях процентов точности, сколько возможность использовать всю мощь экосистемы Deep Learning.

Одним из ключевых преимуществ гость называет контрфактуальные объяснения. Это метод интерпретации, который отвечает на вопрос: «Что должно было измениться во входных данных, чтобы модель приняла другое решение?». Например, если транзакция помечена как мошенническая, контрфактуальный анализ покажет, какой именно параметр (сумма, место или время) стал решающим. Реализация этого метода значительно упрощается в дифференцируемых моделях (нейросетях), где можно использовать градиенты для поиска кратчайшего пути к изменению классификации.

Кроме того, по мнению Баяна Брусса, DL открывает путь к мультимодальности. Это позволяет объединять табличные данные клиента с его графом транзакций или текстовыми логами в единую архитектуру, обучаемую сквозным образом.

🤖 Архитектура Saint: Трансформеры для строк и столбцов 30:36

Одним из прорывных решений в области табличного DL Брусс считает архитектуру Saint, разработанную в сотрудничестве с Томом Голдштейном из Мэрилендского университета.

Особенности архитектуры Saint:

Внимание между признаками (Row Attention): Модель анализирует все колонки в одной строке и определяет, какие из них наиболее важны для конкретного прогноза.
Внимание между примерами (Inter-sample Attention): Модель смотрит на другие точки данных в обучающей выборке, фактически работая как продвинутый метод ближайших соседей (KNN), встроенный в трансформер.

Хотя исследования показывают, что на малых выборках (до 50 000 примеров) XGBoost все еще доминирует, на больших объемах данных нейросети начинают выигрывать.

🚀 Будущее: Фундаментальные модели для бизнеса 34:45

Баян Брусс предполагает, что табличные данные могут пройти тот же путь, что и NLP: от специфических моделей для каждой задачи к огромным предобученным «фундаментальным моделям».

Однако на этом пути есть серьезные препятствия. В отличие от текста в интернете, табличные данные в разных компаниях крайне гетерогенны. Как отмечает гость, модель, обученная на данных о болезнях, вряд ли поможет предсказать отток банковских клиентов без существенной доработки. Тем не менее, внутри одной индустрии создание «фундаментальных моделей оттока» или «моделей мошенничества» выглядит перспективным.

Главным барьером здесь выступает приватность: банковские и медицинские данные закрыты внутри корпоративных периметров, что делает невозможным сбор единого гигантского датасета, подобного Common Crawl для текстов.

🛠 Проблема инструментов: почему Data Scientist-ы выбирают классику 49:30

Завершая дискуссию, Брусс подчеркивает, что главная проблема Deep Learning в таблицах сегодня — это не точность (паритет с XGBoost уже достигнут), а отсутствие качественного софта.

По словам гостя, дата-сайентисты ценят простоту API (как в Scikit-learn): вызвал .fit(), .predict() и настроил 5-7 понятных гиперпараметров. В мире Deep Learning специалисту приходится отвечать на сотни вопросов: какую архитектуру выбрать, как кодировать признаки, какую выбрать схему регуляризации и размерность эмбеддингов.

Брусс считает, что массовое внедрение трансформеров в бизнес начнется тогда, когда появятся инструменты, скрывающие эту сложность за простым интерфейсом. Capital One активно работает в этом направлении, поддерживая open-source инициативы.