GOAT против графов: как Capital One внедряет Трансформеры в финансовые сети

В современном мире машинного обучения наметился разрыв: пока заголовки газет пестрят новостями о генеративном ИИ, «рабочими лошадками» реального сектора остаются дискриминативные модели, принимающие решения о кредитах, транзакциях и безопасности . Баян Брусс, вице-президент по прикладным исследованиям в области машинного обучения в Capital One, в интервью Сэму Черрингтону на подкасте TWIML AI рассказал о том, как его команда пытается сделать эти системы более прозрачными и эффективными на промышленных масштабах.

🔍 Проблема «черного ящика» в эмбеддингах 1:04

Одной из главных тем беседы стала работа «Identifying Interpretable Subspaces in Image Representations», представленная на конференции ICML . Брусс отмечает, что современные системы все чаще строятся на обучении представлениям (representation learning) и высококачественных эмбеддингах . Это удобно: вы берете сложный многомерный набор данных, превращаете его в сжатый вектор (эмбеддинг) и сохраняете в векторную базу данных для поиска или использования в других моделях .

Однако, по словам гостя, это создает проблему интерпретируемости:

Традиционные признаки: Раньше специалисты по данным создавали признаки вручную (например, «сумма транзакции»), и если модель SHAP показывала важность признака, его смысл был понятен .
Современные эмбеддинги: Теперь модель может сказать, что важны «измерение №6» и «измерение №53» в 128-мерном векторе, что абсолютно ничего не говорит человеку .

Брусс подчеркивает, что отдельное измерение в нейросети редко бывает «чистым» и понятным . Информация в нейронных архитектурах распределена, и только комбинация нескольких измерений (подпространство) начинает приобретать смысл для человеческого восприятия .

🛋️ Контрастивное извлечение концептов: как «услышать» нейросеть 10:58

Чтобы разгадать смысл этих измерений, команда Брусса разработала метод, объединяющий компьютерное зрение и большие языковые модели (LLM). Процесс выглядит следующим образом:

Поиск активаций: Для конкретного измерения в эмбеддинге выбираются изображения, которые вызывают в нем самый сильный отклик .
Визуальная фокусировка: С помощью таких методов, как Grad-CAM, определяются конкретные пиксели внутри изображения, на которые «смотрит» это измерение, и делается обрезка (crop) .
Перевод на человеческий: Эти фрагменты подаются в модель типа CLIP, которая генерирует текстовое описание увиденного .

Ключевым новшеством Брусс называет контрастивное вычитание . Чтобы описание не было общим (например, просто «собака»), авторы берут изображения с низкой активацией для того же измерения и вычитают их ключевые слова из описания высокоактивирующих картинок . Это позволяет убрать «шум» и оставить только ту уникальную характеристику, за которую отвечает данное измерение .

По мнению Брусса, это не просто теоретический поиск, а мощный инструмент отладки. Он приводит пример: модель может ошибочно классифицировать стаю гусей как «крыло самолета» просто из-за синего неба на фоне . С помощью их метода разработчик может увидеть, что модель на самом деле «думает», что в кадре самолет, и вовремя скорректировать обучающие данные, устраняя ложные корреляции .

🐐 GOAT: Трансформеры для гигантских графов 24:33

Вторая часть беседы была посвящена обработке графовых структур, что критически важно для банковской сферы. Брусс объясняет, что финансовые услуги по сути своей являются графами: когда вы расплачиваетесь картой, создается ребро между вами (узлом) и продавцом (другим узлом) . Сеть Capital One включает десятки миллионов узлов и миллиарды ребер .

Проблема в том, что стандартный механизм внимания (self-attention) в Трансформерах имеет квадратичную сложность по времени ($N^2$) . В графах это ограничение становится фатальным: если вы захотите учесть не только прямых соседей (1 шаг), но и их соседей (2 шага), количество связей растет экспоненциально . Это делает прямое применение Трансформеров к большим графам вычислительно невозможным .

Для решения этой задачи команда Брусса представила проект под названием GOAT (Global Transformer on Large-scale Graphs) . Основные идеи метода:

Кодовая книга (Codebook): Вместо вычисления внимания между всеми узлами, весь граф разбивается на кластеры с помощью K-means .
Аппроксимация: Каждый узел сопоставляется с определенным кластером в «кодовой книге». Теперь модель вычисляет внимание не между миллионами узлов, а между фиксированным (и небольшим) числом кластеров .
Гибридный подход: Система сохраняет локальное внимание для ближайших соседей и использует глобальное внимание через кодовую книгу для связей через весь граф .

По словам Брусса, GOAT решает проблему выбора между принципами гомофилии (похожесть соседей) и гетерофилии (различие соседей) . Модели больше не нужно заранее задавать структуру — она сама обучается тому, какая информация (локальная или глобальная) важнее для конкретной задачи . В тестах на открытых бенчмарках (OGB, SNAP) GOAT показал результаты на уровне или выше современных SOTA-решений, при этом не вызывая ошибок переполнения памяти, характерных для обычных Трансформеров .

🚀 Будущее: время и новые модальности 40:49

Заглядывая вперед, Баян Брусс отмечает, что хотел бы перенести успехи интерпретируемости из области зрения на графы. Основная сложность здесь — отсутствие готовых моделей вроде CLIP для графов, которые могли бы превращать сетевые структуры в текст .

В области графовых нейросетей следующим большим рубежом Брусс считает темпоральную область . Реальные банковские графы не статичны: они меняются каждую секунду, и динамика этих изменений несет в себе колоссальный объем информации для борьбы с мошенничеством и понимания поведения клиентов .