# GOAT против графов: как Capital One внедряет Трансформеры в финансовые сети

Источник: https://www.youtube.com/watch?v=4xPJToGm02E
Канал: The TWIML AI Podcast
Опубликовано: 07.08.2023

---

В современном мире машинного обучения наметился разрыв: пока заголовки газет пестрят новостями о генеративном ИИ, «рабочими лошадками» реального сектора остаются дискриминативные модели, принимающие решения о кредитах, транзакциях и безопасности [03:46]. Баян Брусс, вице-президент по прикладным исследованиям в области машинного обучения в Capital One, в интервью Сэму Черрингтону на подкасте TWIML AI рассказал о том, как его команда пытается сделать эти системы более прозрачными и эффективными на промышленных масштабах.

## 🔍 Проблема «черного ящика» в эмбеддингах
[[JUMP:01:04]]

Одной из главных тем беседы стала работа «Identifying Interpretable Subspaces in Image Representations», представленная на конференции ICML [03:17]. Брусс отмечает, что современные системы все чаще строятся на обучении представлениям (representation learning) и высококачественных эмбеддингах [04:38]. Это удобно: вы берете сложный многомерный набор данных, превращаете его в сжатый вектор (эмбеддинг) и сохраняете в векторную базу данных для поиска или использования в других моделях [05:06].

Однако, по словам гостя, это создает проблему интерпретируемости:

*   **Традиционные признаки:** Раньше специалисты по данным создавали признаки вручную (например, «сумма транзакции»), и если модель SHAP показывала важность признака, его смысл был понятен [06:12].
*   **Современные эмбеддинги:** Теперь модель может сказать, что важны «измерение №6» и «измерение №53» в 128-мерном векторе, что абсолютно ничего не говорит человеку [07:09].

Брусс подчеркивает, что отдельное измерение в нейросети редко бывает «чистым» и понятным [08:55]. Информация в нейронных архитектурах распределена, и только комбинация нескольких измерений (подпространство) начинает приобретать смысл для человеческого восприятия [09:36].

## 🛋️ Контрастивное извлечение концептов: как «услышать» нейросеть
[[JUMP:10:58]]

Чтобы разгадать смысл этих измерений, команда Брусса разработала метод, объединяющий компьютерное зрение и большие языковые модели (LLM). Процесс выглядит следующим образом:

1.  **Поиск активаций:** Для конкретного измерения в эмбеддинге выбираются изображения, которые вызывают в нем самый сильный отклик [11:50].
2.  **Визуальная фокусировка:** С помощью таких методов, как Grad-CAM, определяются конкретные пиксели внутри изображения, на которые «смотрит» это измерение, и делается обрезка (crop) [12:17].
3.  **Перевод на человеческий:** Эти фрагменты подаются в модель типа CLIP, которая генерирует текстовое описание увиденного [13:09].

Ключевым новшеством Брусс называет **контрастивное вычитание** [14:20]. Чтобы описание не было общим (например, просто «собака»), авторы берут изображения с низкой активацией для того же измерения и вычитают их ключевые слова из описания высокоактивирующих картинок [14:46]. Это позволяет убрать «шум» и оставить только ту уникальную характеристику, за которую отвечает данное измерение [15:12].

По мнению Брусса, это не просто теоретический поиск, а мощный инструмент отладки. Он приводит пример: модель может ошибочно классифицировать стаю гусей как «крыло самолета» просто из-за синего неба на фоне [22:31]. С помощью их метода разработчик может увидеть, что модель на самом деле «думает», что в кадре самолет, и вовремя скорректировать обучающие данные, устраняя ложные корреляции [22:59].

## 🐐 GOAT: Трансформеры для гигантских графов
[[JUMP:24:33]]

Вторая часть беседы была посвящена обработке графовых структур, что критически важно для банковской сферы. Брусс объясняет, что финансовые услуги по сути своей являются графами: когда вы расплачиваетесь картой, создается ребро между вами (узлом) и продавцом (другим узлом) [25:52]. Сеть Capital One включает десятки миллионов узлов и миллиарды ребер [26:04].

Проблема в том, что стандартный механизм внимания (self-attention) в Трансформерах имеет квадратичную сложность по времени ($N^2$) [26:47]. В графах это ограничение становится фатальным: если вы захотите учесть не только прямых соседей (1 шаг), но и их соседей (2 шага), количество связей растет экспоненциально [27:41]. Это делает прямое применение Трансформеров к большим графам вычислительно невозможным [28:20].

Для решения этой задачи команда Брусса представила проект под названием **GOAT (Global Transformer on Large-scale Graphs)** [24:33]. Основные идеи метода:

*   **Кодовая книга (Codebook):** Вместо вычисления внимания между всеми узлами, весь граф разбивается на кластеры с помощью K-means [31:38].
*   **Аппроксимация:** Каждый узел сопоставляется с определенным кластером в «кодовой книге». Теперь модель вычисляет внимание не между миллионами узлов, а между фиксированным (и небольшим) числом кластеров [32:18].
*   **Гибридный подход:** Система сохраняет локальное внимание для ближайших соседей и использует глобальное внимание через кодовую книгу для связей через весь граф [33:12].

По словам Брусса, GOAT решает проблему выбора между принципами гомофилии (похожесть соседей) и гетерофилии (различие соседей) [29:41]. Модели больше не нужно заранее задавать структуру — она сама обучается тому, какая информация (локальная или глобальная) важнее для конкретной задачи [34:09]. В тестах на открытых бенчмарках (OGB, SNAP) GOAT показал результаты на уровне или выше современных SOTA-решений, при этом не вызывая ошибок переполнения памяти, характерных для обычных Трансформеров [40:10].

## 🚀 Будущее: время и новые модальности
[[JUMP:40:49]]

Заглядывая вперед, Баян Брусс отмечает, что хотел бы перенести успехи интерпретируемости из области зрения на графы. Основная сложность здесь — отсутствие готовых моделей вроде CLIP для графов, которые могли бы превращать сетевые структуры в текст [41:59].

В области графовых нейросетей следующим большим рубежом Брусс считает **темпоральную область** [42:38]. Реальные банковские графы не статичны: они меняются каждую секунду, и динамика этих изменений несет в себе колоссальный объем информации для борьбы с мошенничеством и понимания поведения клиентов [42:50].