GOAT против графов: как Capital One внедряет Трансформеры в финансовые сети

The TWIML AI Podcast 784 44 мин 4 мин 07.08.2023
Главное

В современном мире машинного обучения наметился разрыв: пока заголовки газет пестрят новостями о генеративном ИИ, «рабочими лошадками» реального сектора остаются дискриминативные модели, принимающие решения о кредитах, транзакциях и безопасности . Баян Брусс, вице-президент по прикладным исследованиям в области машинного обучения в Capital One, в интервью Сэму Черрингтону на подкасте TWIML AI рассказал о том, как его команда пытается сделать эти системы более прозрачными и эффективными на промышленных масштабах.

🔍 Проблема «черного ящика» в эмбеддингах 1:04

Одной из главных тем беседы стала работа «Identifying Interpretable Subspaces in Image Representations», представленная на конференции ICML . Брусс отмечает, что современные системы все чаще строятся на обучении представлениям (representation learning) и высококачественных эмбеддингах . Это удобно: вы берете сложный многомерный набор данных, превращаете его в сжатый вектор (эмбеддинг) и сохраняете в векторную базу данных для поиска или использования в других моделях .

Однако, по словам гостя, это создает проблему интерпретируемости:

Брусс подчеркивает, что отдельное измерение в нейросети редко бывает «чистым» и понятным . Информация в нейронных архитектурах распределена, и только комбинация нескольких измерений (подпространство) начинает приобретать смысл для человеческого восприятия .

🛋️ Контрастивное извлечение концептов: как «услышать» нейросеть 10:58

Чтобы разгадать смысл этих измерений, команда Брусса разработала метод, объединяющий компьютерное зрение и большие языковые модели (LLM). Процесс выглядит следующим образом:

  1. Поиск активаций: Для конкретного измерения в эмбеддинге выбираются изображения, которые вызывают в нем самый сильный отклик .
  2. Визуальная фокусировка: С помощью таких методов, как Grad-CAM, определяются конкретные пиксели внутри изображения, на которые «смотрит» это измерение, и делается обрезка (crop) .
  3. Перевод на человеческий: Эти фрагменты подаются в модель типа CLIP, которая генерирует текстовое описание увиденного .

Ключевым новшеством Брусс называет контрастивное вычитание . Чтобы описание не было общим (например, просто «собака»), авторы берут изображения с низкой активацией для того же измерения и вычитают их ключевые слова из описания высокоактивирующих картинок . Это позволяет убрать «шум» и оставить только ту уникальную характеристику, за которую отвечает данное измерение .

По мнению Брусса, это не просто теоретический поиск, а мощный инструмент отладки. Он приводит пример: модель может ошибочно классифицировать стаю гусей как «крыло самолета» просто из-за синего неба на фоне . С помощью их метода разработчик может увидеть, что модель на самом деле «думает», что в кадре самолет, и вовремя скорректировать обучающие данные, устраняя ложные корреляции .

🐐 GOAT: Трансформеры для гигантских графов 24:33

Вторая часть беседы была посвящена обработке графовых структур, что критически важно для банковской сферы. Брусс объясняет, что финансовые услуги по сути своей являются графами: когда вы расплачиваетесь картой, создается ребро между вами (узлом) и продавцом (другим узлом) . Сеть Capital One включает десятки миллионов узлов и миллиарды ребер .

Проблема в том, что стандартный механизм внимания (self-attention) в Трансформерах имеет квадратичную сложность по времени ($N^2$) . В графах это ограничение становится фатальным: если вы захотите учесть не только прямых соседей (1 шаг), но и их соседей (2 шага), количество связей растет экспоненциально . Это делает прямое применение Трансформеров к большим графам вычислительно невозможным .

Для решения этой задачи команда Брусса представила проект под названием GOAT (Global Transformer on Large-scale Graphs) . Основные идеи метода:

По словам Брусса, GOAT решает проблему выбора между принципами гомофилии (похожесть соседей) и гетерофилии (различие соседей) . Модели больше не нужно заранее задавать структуру — она сама обучается тому, какая информация (локальная или глобальная) важнее для конкретной задачи . В тестах на открытых бенчмарках (OGB, SNAP) GOAT показал результаты на уровне или выше современных SOTA-решений, при этом не вызывая ошибок переполнения памяти, характерных для обычных Трансформеров .

🚀 Будущее: время и новые модальности 40:49

Заглядывая вперед, Баян Брусс отмечает, что хотел бы перенести успехи интерпретируемости из области зрения на графы. Основная сложность здесь — отсутствие готовых моделей вроде CLIP для графов, которые могли бы превращать сетевые структуры в текст .

В области графовых нейросетей следующим большим рубежом Брусс считает темпоральную область . Реальные банковские графы не статичны: они меняются каждую секунду, и динамика этих изменений несет в себе колоссальный объем информации для борьбы с мошенничеством и понимания поведения клиентов .

💬 Цитаты

«Когда вы добавляете 128-мерный вектор эмбеддинга в модель, и она говорит, что важно измерение №53 — это становится крайне сложно интерпретировать.»

Баян Брусс 07:09

«С помощью этой методологии вы можете не только увидеть ошибку предсказания, но и понять, что именно модель увидела в картинке.»

Баян Брусс 22:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Эмбеддинг
Способ представления данных (слов, картинок, узлов графа) в виде векторов чисел, где похожие объекты оказываются рядом.
Гомофилия
Принцип в графах, согласно которому связанные узлы имеют схожие характеристики.
Гетерофилия
Свойство сети, при котором связанные узлы склонны отличаться друг от друга.
Трансформеры
Архитектура нейросетей, основанная на механизме внимания, ставшая стандартом для обработки текстов и графов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Capital One Transformers Graph Neural Networks Explainable AI ICML