Алекс Стэнли о возвращении к ядерным методам в эпоху трансформеров

Ядра в машинном обучении: от классики до современных трансформеров 🧠 0:04

Ядерные методы долгое время были «золотым стандартом» машинного обучения, уступив место нейронным сетям, однако сегодня мы наблюдаем своеобразное «возвращение к истокам». В этом эпизоде Machine Learning Street Talk ведущий Янник Килхер обсуждает теорию ядер с Алексом Стэнли, разбираясь, как концепции из прошлого, такие как теорема о представителе и гильбертовы пространства, помогают лучше понять современные архитектуры, включая трансформеры.

Что такое ядро и почему вокруг них столько путаницы? 🔀 11:53

Алекс Стэнли отмечает, что термин «ядро» (kernel) в машинном обучении часто вызывает замешательство из-за пересечения с другими дисциплинами: от ядер операционных систем до сверточных фильтров в CNN.

Матричное ядро: В линейной алгебре это ядро (null space) матрицы — набор векторов, отображаемых в ноль.
Ядерные методы: Здесь речь идет о положительно определенных функциях.
Ядерная матрица: Это матрица попарных расстояний или схожести между точками данных, которая критически важна для работы алгоритмов.

По словам Алекса, самая большая ошибка при обучении ядерным методам сегодня — это отказ от «старой школы» статистической теории обучения в пользу чистого инженерного подхода. Раньше, при ограниченных вычислительных мощностях, исследователи были вынуждены детально продумывать определение моделей, чтобы гарантировать сходимость, а не просто полагаться на стохастический градиентный спуск (SGD).

Математическая магия: гильбертовы пространства и RKHS ✨ 24:52

Основа ядерных методов — это воспроизводящее ядро гильбертова пространства (RKHS).

Гильбертово пространство: Это векторное пространство, похожее на привычное нам $\mathbb{R}^n$, но с использованием более сложных базисов, например, синусоидальных функций или полиномов.
Воспроизводящее свойство: Использование «функционала оценки» позволяет превратить вычисление значения функции в точке в скалярное произведение, что является ключевым для эффективности ядер.

Янник и Алекс сошлись во мнении, что этот математический аппарат позволяет рассматривать обучение как поиск наилучшей функции в пространстве, где отсутствие резких разрывов (благодаря непрерывности функционала оценки) делает поиск более стабильным.

Вычислительная эффективность и «трюк с ядром» 🚀 19:15

Основная «магия» ядерных методов заключается в возможности вычислять попарную схожесть объектов в высокоразмерном (или даже бесконечномерном) пространстве без явного вычисления признаков (feature maps).

Ядерный трюк: Позволяет заменить вычисление огромных векторов скалярным произведением в «ядерном пространстве».
Экономия: Для полиномиальных ядер или функций радиального базиса (RBF) это дает значительное преимущество, так как вычисления сводятся к простым операциям.

Однако Алекс предостерегает: ядерные методы плохо масштабируются при огромных объемах данных. Хранение матрицы $N \times N$ становится критическим ограничением. В таких случаях нейронные сети с их мини-батчами и стохастической оптимизацией оказываются намного эффективнее.

Теорема о представителе: почему данные — это модель 📊

Теорема о представителе (Representer Theorem) — это то, что связывает абстрактные гильбертовы пространства с практической реализацией. Она утверждает: любая оптимальная функция, минимизирующая регуляризованный функционал эмпирического риска, может быть представлена как конечная линейная комбинация ядер, вычисленных на обучающих точках.

По мнению Алекса, это фундаментальный сдвиг в понимании: мы фактически проводим линейную регрессию не на признаках, а на самих точках данных, оценивая их «схожесть». Янник отмечает, что трансформеры в какой-то мере возвращаются к этой идее: большие языковые модели требуют масштабирования и данных, и параметров, что перекликается с тем, как в ядерных методах сложность модели растет вместе с данными.

Будущее: пересечение deep learning и ядер 🔮

Хотя глубокое обучение сейчас доминирует, собеседники видят потенциал в «ядерном мышлении» для решения специфических задач:

Точность: Нейронные сети отлично справляются с аппроксимацией, но часто проигрывают там, где нужно «точное» решение (например, в задаче восстановления поз камеры).
Интерпретируемость: Использование ядер позволяет лучше контролировать поведение модели, например, при style transfer или анализе временных рядов, где «черный ящик» нейросети может добавить нежелательный шум.
Теоретическая база: Понимание ядер дает инструменты для улучшения внимания (attention) в трансформерах, делая их более вычислительно эффективными за счет замены полных матриц внимания более экономными аппроксимациями.

Алекс Стэнли подчеркивает: все текущее AI — это, по сути, очень умная статистика, а не подлинный интеллект. Понимание того, как работают эти методы «под капотом», — лучший способ для исследователей не заниматься «слепым инженерным перебором».