В современном мире машинного обучения наметился разрыв: пока заголовки газет пестрят новостями о генеративном ИИ, «рабочими лошадками» реального сектора остаются дискриминативные модели, принимающие решения о кредитах, транзакциях и безопасности . Баян Брусс, вице-президент по прикладным исследованиям в области машинного обучения в Capital One, в интервью Сэму Черрингтону на подкасте TWIML AI рассказал о том, как его команда пытается сделать эти системы более прозрачными и эффективными на промышленных масштабах.
🔍 Проблема «черного ящика» в эмбеддингах 1:04
Одной из главных тем беседы стала работа «Identifying Interpretable Subspaces in Image Representations», представленная на конференции ICML . Брусс отмечает, что современные системы все чаще строятся на обучении представлениям (representation learning) и высококачественных эмбеддингах . Это удобно: вы берете сложный многомерный набор данных, превращаете его в сжатый вектор (эмбеддинг) и сохраняете в векторную базу данных для поиска или использования в других моделях .
Однако, по словам гостя, это создает проблему интерпретируемости:
- Традиционные признаки: Раньше специалисты по данным создавали признаки вручную (например, «сумма транзакции»), и если модель SHAP показывала важность признака, его смысл был понятен .
- Современные эмбеддинги: Теперь модель может сказать, что важны «измерение №6» и «измерение №53» в 128-мерном векторе, что абсолютно ничего не говорит человеку .
Брусс подчеркивает, что отдельное измерение в нейросети редко бывает «чистым» и понятным . Информация в нейронных архитектурах распределена, и только комбинация нескольких измерений (подпространство) начинает приобретать смысл для человеческого восприятия .
🛋️ Контрастивное извлечение концептов: как «услышать» нейросеть 10:58
Чтобы разгадать смысл этих измерений, команда Брусса разработала метод, объединяющий компьютерное зрение и большие языковые модели (LLM). Процесс выглядит следующим образом:
- Поиск активаций: Для конкретного измерения в эмбеддинге выбираются изображения, которые вызывают в нем самый сильный отклик .
- Визуальная фокусировка: С помощью таких методов, как Grad-CAM, определяются конкретные пиксели внутри изображения, на которые «смотрит» это измерение, и делается обрезка (crop) .
- Перевод на человеческий: Эти фрагменты подаются в модель типа CLIP, которая генерирует текстовое описание увиденного .
Ключевым новшеством Брусс называет контрастивное вычитание . Чтобы описание не было общим (например, просто «собака»), авторы берут изображения с низкой активацией для того же измерения и вычитают их ключевые слова из описания высокоактивирующих картинок . Это позволяет убрать «шум» и оставить только ту уникальную характеристику, за которую отвечает данное измерение .
По мнению Брусса, это не просто теоретический поиск, а мощный инструмент отладки. Он приводит пример: модель может ошибочно классифицировать стаю гусей как «крыло самолета» просто из-за синего неба на фоне . С помощью их метода разработчик может увидеть, что модель на самом деле «думает», что в кадре самолет, и вовремя скорректировать обучающие данные, устраняя ложные корреляции .
🐐 GOAT: Трансформеры для гигантских графов 24:33
Вторая часть беседы была посвящена обработке графовых структур, что критически важно для банковской сферы. Брусс объясняет, что финансовые услуги по сути своей являются графами: когда вы расплачиваетесь картой, создается ребро между вами (узлом) и продавцом (другим узлом) . Сеть Capital One включает десятки миллионов узлов и миллиарды ребер .
Проблема в том, что стандартный механизм внимания (self-attention) в Трансформерах имеет квадратичную сложность по времени ($N^2$) . В графах это ограничение становится фатальным: если вы захотите учесть не только прямых соседей (1 шаг), но и их соседей (2 шага), количество связей растет экспоненциально . Это делает прямое применение Трансформеров к большим графам вычислительно невозможным .
Для решения этой задачи команда Брусса представила проект под названием GOAT (Global Transformer on Large-scale Graphs) . Основные идеи метода:
- Кодовая книга (Codebook): Вместо вычисления внимания между всеми узлами, весь граф разбивается на кластеры с помощью K-means .
- Аппроксимация: Каждый узел сопоставляется с определенным кластером в «кодовой книге». Теперь модель вычисляет внимание не между миллионами узлов, а между фиксированным (и небольшим) числом кластеров .
- Гибридный подход: Система сохраняет локальное внимание для ближайших соседей и использует глобальное внимание через кодовую книгу для связей через весь граф .
По словам Брусса, GOAT решает проблему выбора между принципами гомофилии (похожесть соседей) и гетерофилии (различие соседей) . Модели больше не нужно заранее задавать структуру — она сама обучается тому, какая информация (локальная или глобальная) важнее для конкретной задачи . В тестах на открытых бенчмарках (OGB, SNAP) GOAT показал результаты на уровне или выше современных SOTA-решений, при этом не вызывая ошибок переполнения памяти, характерных для обычных Трансформеров .
🚀 Будущее: время и новые модальности 40:49
Заглядывая вперед, Баян Брусс отмечает, что хотел бы перенести успехи интерпретируемости из области зрения на графы. Основная сложность здесь — отсутствие готовых моделей вроде CLIP для графов, которые могли бы превращать сетевые структуры в текст .
В области графовых нейросетей следующим большим рубежом Брусс считает темпоральную область . Реальные банковские графы не статичны: они меняются каждую секунду, и динамика этих изменений несет в себе колоссальный объем информации для борьбы с мошенничеством и понимания поведения клиентов .