Алекс Стэнли о возвращении к ядерным методам в эпоху трансформеров

Machine Learning Street Talk 22,9 тыс. 1 ч 37 мин 3 мин 18.09.2020
Главное

Ядра в машинном обучении: от классики до современных трансформеров 🧠 0:04

Ядерные методы долгое время были «золотым стандартом» машинного обучения, уступив место нейронным сетям, однако сегодня мы наблюдаем своеобразное «возвращение к истокам». В этом эпизоде Machine Learning Street Talk ведущий Янник Килхер обсуждает теорию ядер с Алексом Стэнли, разбираясь, как концепции из прошлого, такие как теорема о представителе и гильбертовы пространства, помогают лучше понять современные архитектуры, включая трансформеры.

Что такое ядро и почему вокруг них столько путаницы? 🔀 11:53

Алекс Стэнли отмечает, что термин «ядро» (kernel) в машинном обучении часто вызывает замешательство из-за пересечения с другими дисциплинами: от ядер операционных систем до сверточных фильтров в CNN.

По словам Алекса, самая большая ошибка при обучении ядерным методам сегодня — это отказ от «старой школы» статистической теории обучения в пользу чистого инженерного подхода. Раньше, при ограниченных вычислительных мощностях, исследователи были вынуждены детально продумывать определение моделей, чтобы гарантировать сходимость, а не просто полагаться на стохастический градиентный спуск (SGD).

Математическая магия: гильбертовы пространства и RKHS ✨ 24:52

Основа ядерных методов — это воспроизводящее ядро гильбертова пространства (RKHS).

Янник и Алекс сошлись во мнении, что этот математический аппарат позволяет рассматривать обучение как поиск наилучшей функции в пространстве, где отсутствие резких разрывов (благодаря непрерывности функционала оценки) делает поиск более стабильным.

Вычислительная эффективность и «трюк с ядром» 🚀 19:15

Основная «магия» ядерных методов заключается в возможности вычислять попарную схожесть объектов в высокоразмерном (или даже бесконечномерном) пространстве без явного вычисления признаков (feature maps).

Однако Алекс предостерегает: ядерные методы плохо масштабируются при огромных объемах данных. Хранение матрицы $N \times N$ становится критическим ограничением. В таких случаях нейронные сети с их мини-батчами и стохастической оптимизацией оказываются намного эффективнее.

Теорема о представителе: почему данные — это модель 📊

Теорема о представителе (Representer Theorem) — это то, что связывает абстрактные гильбертовы пространства с практической реализацией. Она утверждает: любая оптимальная функция, минимизирующая регуляризованный функционал эмпирического риска, может быть представлена как конечная линейная комбинация ядер, вычисленных на обучающих точках.

По мнению Алекса, это фундаментальный сдвиг в понимании: мы фактически проводим линейную регрессию не на признаках, а на самих точках данных, оценивая их «схожесть». Янник отмечает, что трансформеры в какой-то мере возвращаются к этой идее: большие языковые модели требуют масштабирования и данных, и параметров, что перекликается с тем, как в ядерных методах сложность модели растет вместе с данными.

Будущее: пересечение deep learning и ядер 🔮

Хотя глубокое обучение сейчас доминирует, собеседники видят потенциал в «ядерном мышлении» для решения специфических задач:

Алекс Стэнли подчеркивает: все текущее AI — это, по сути, очень умная статистика, а не подлинный интеллект. Понимание того, как работают эти методы «под капотом», — лучший способ для исследователей не заниматься «слепым инженерным перебором».

💬 Цитаты

«Все математики — это квест по сведению любой проблемы к аксиомам линейной алгебры.»

Алекс Стэнли 37:17

«Интеллект — это как определение порнографии: я узнаю его, когда увижу.»

Алекс Стэнли 134:14
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RKHS
Воспроизводящее ядро гильбертова пространства — пространство функций, где вычисление значения функции в точке эквивалентно скалярному произведению.
Ядерный трюк
Метод, позволяющий вычислять скалярные произведения в высокоразмерных пространствах без явного построения этих пространств.
Теорема о представителе
Теорема, утверждающая, что решение задачи оптимизации в RKHS лежит в линейной оболочке ядерных функций обучающих данных.
RBF kernel
Ядро радиального базиса, измеряющее близость точек на основе евклидова расстояния.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Machine Learning Kernel Methods Transformers RKHS Representer Theorem