# Алекс Стэнли о возвращении к ядерным методам в эпоху трансформеров

Источник: https://www.youtube.com/watch?v=y_RjsDHl5Y4
Канал: Machine Learning Street Talk
Опубликовано: 18.09.2020

---

## Ядра в машинном обучении: от классики до современных трансформеров 🧠
[[JUMP:0:04]]

Ядерные методы долгое время были «золотым стандартом» машинного обучения, уступив место нейронным сетям, однако сегодня мы наблюдаем своеобразное «возвращение к истокам». В этом эпизоде Machine Learning Street Talk ведущий Янник Килхер обсуждает теорию ядер с Алексом Стэнли, разбираясь, как концепции из прошлого, такие как теорема о представителе и гильбертовы пространства, помогают лучше понять современные архитектуры, включая трансформеры.

### Что такое ядро и почему вокруг них столько путаницы? 🔀
[[JUMP:11:53]]

Алекс Стэнли отмечает, что термин «ядро» (kernel) в машинном обучении часто вызывает замешательство из-за пересечения с другими дисциплинами: от ядер операционных систем до сверточных фильтров в CNN.

*   **Матричное ядро:** В линейной алгебре это ядро (null space) матрицы — набор векторов, отображаемых в ноль.
*   **Ядерные методы:** Здесь речь идет о положительно определенных функциях.
*   **Ядерная матрица:** Это матрица попарных расстояний или схожести между точками данных, которая критически важна для работы алгоритмов.

По словам Алекса, самая большая ошибка при обучении ядерным методам сегодня — это отказ от «старой школы» статистической теории обучения в пользу чистого инженерного подхода. Раньше, при ограниченных вычислительных мощностях, исследователи были вынуждены детально продумывать определение моделей, чтобы гарантировать сходимость, а не просто полагаться на стохастический градиентный спуск (SGD).

### Математическая магия: гильбертовы пространства и RKHS ✨
[[JUMP:24:52]]

Основа ядерных методов — это воспроизводящее ядро гильбертова пространства (RKHS). 

*   **Гильбертово пространство:** Это векторное пространство, похожее на привычное нам $\mathbb{R}^n$, но с использованием более сложных базисов, например, синусоидальных функций или полиномов.
*   **Воспроизводящее свойство:** Использование «функционала оценки» позволяет превратить вычисление значения функции в точке в скалярное произведение, что является ключевым для эффективности ядер.

Янник и Алекс сошлись во мнении, что этот математический аппарат позволяет рассматривать обучение как поиск наилучшей функции в пространстве, где отсутствие резких разрывов (благодаря непрерывности функционала оценки) делает поиск более стабильным.

### Вычислительная эффективность и «трюк с ядром» 🚀
[[JUMP:19:15]]

Основная «магия» ядерных методов заключается в возможности вычислять попарную схожесть объектов в высокоразмерном (или даже бесконечномерном) пространстве без явного вычисления признаков (feature maps).

*   **Ядерный трюк:** Позволяет заменить вычисление огромных векторов скалярным произведением в «ядерном пространстве».
*   **Экономия:** Для полиномиальных ядер или функций радиального базиса (RBF) это дает значительное преимущество, так как вычисления сводятся к простым операциям.

Однако Алекс предостерегает: ядерные методы плохо масштабируются при огромных объемах данных. Хранение матрицы $N \times N$ становится критическим ограничением. В таких случаях нейронные сети с их мини-батчами и стохастической оптимизацией оказываются намного эффективнее.

### Теорема о представителе: почему данные — это модель 📊
[[JUMP:114:03]]

Теорема о представителе (Representer Theorem) — это то, что связывает абстрактные гильбертовы пространства с практической реализацией. Она утверждает: любая оптимальная функция, минимизирующая регуляризованный функционал эмпирического риска, может быть представлена как конечная линейная комбинация ядер, вычисленных на обучающих точках.

По мнению Алекса, это фундаментальный сдвиг в понимании: мы фактически проводим линейную регрессию не на признаках, а на самих точках данных, оценивая их «схожесть». Янник отмечает, что трансформеры в какой-то мере возвращаются к этой идее: большие языковые модели требуют масштабирования и данных, и параметров, что перекликается с тем, как в ядерных методах сложность модели растет вместе с данными.

### Будущее: пересечение deep learning и ядер 🔮
[[JUMP:127:40]]

Хотя глубокое обучение сейчас доминирует, собеседники видят потенциал в «ядерном мышлении» для решения специфических задач:

*   **Точность:** Нейронные сети отлично справляются с аппроксимацией, но часто проигрывают там, где нужно «точное» решение (например, в задаче восстановления поз камеры).
*   **Интерпретируемость:** Использование ядер позволяет лучше контролировать поведение модели, например, при style transfer или анализе временных рядов, где «черный ящик» нейросети может добавить нежелательный шум.
*   **Теоретическая база:** Понимание ядер дает инструменты для улучшения внимания (attention) в трансформерах, делая их более вычислительно эффективными за счет замены полных матриц внимания более экономными аппроксимациями.

Алекс Стэнли подчеркивает: все текущее AI — это, по сути, очень умная статистика, а не подлинный интеллект. Понимание того, как работают эти методы «под капотом», — лучший способ для исследователей не заниматься «слепым инженерным перебором».