Янник Кильхер: «Любая модель, обученная градиентным спуском — ядерная машина»

Yannic Kilcher 63,2 тыс. 43 мин 3 мин 04.02.2021
Главное

Глубокие нейросети как ядерные машины: теоретический взгляд 0:00

В видеоролике Янник Кильхер (Yannic Kilcher) проводит глубокий разбор научной статьи Педро Домингоса (Pedro Domingos) «Every model learned by gradient descent is approximately a kernel machine» («Любая модель, обученная методом градиентного спуска, является приблизительно ядерной машиной»). Основная идея работы заключается в установлении теоретической связи между современными глубокими нейронными сетями и классическими ядерными методами (kernel machines), такими как метод опорных векторов (SVM). Кильхер отмечает, что статья предлагает альтернативный взгляд на процесс обучения нейросетей, интерпретируя веса как суперпозицию тренировочных данных.

🧠 Концепция ядерных машин 4:50

Чтобы понять тезис статьи, необходимо разобраться в том, как работают традиционные ядерные методы. В машинном обучении мы стремимся найти функцию $f$, которая сопоставляет входные данные $x$ с предсказанием $y$.

Янник Кильхер подчеркивает, что выбор ядра — это ключевой этап проектирования таких систем, требовавший ранее серьезных экспертных знаний.

📉 Градиентный спуск и путь модели 10:18

Автор видео сравнивает работу линейной регрессии, обучаемой градиентным спуском, с поведением ядерной машины. В процессе обучения веса модели совершают своего рода «путешествие» от начального состояния $w_0$ до итогового $w_{final}$.

🔢 Основная теорема и путь обучения 26:05

Теорема 1 статьи утверждает, что в пределе бесконечно малых шагов модель, обученная полным градиентным спуском, математически эквивалентна ядерной машине.

💡 Выводы и критика 39:17

Янник Кильхер отмечает несколько важных аспектов:

В заключение Кильхер признает, что, хотя это мощное теоретическое обобщение, оно скорее является способом взгляда на проблему, нежели новым практическим алгоритмом обучения. Он также проводит параллели с методами бустинга (boosting), отмечая, что на определенном уровне абстракции многие алгоритмы обучения начинают выглядеть как вариации одного и того же процесса запоминания данных.

💬 Цитаты

«Deep neural networks are different because we just feed in the training data as is and the deep neural network will automatically discover the features.»

Янник Кильхер 2:13

«Deep networks learned by the standard gradient descent algorithm are in fact mathematically approximately equivalent to kernel machines.»

Янник Кильхер 2:38
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Ядерная машина (Kernel machine)
Метод обучения, который делает предсказания путем сравнения нового входного значения с тренировочными данными через функцию близости.
Градиентный спуск (Gradient descent)
Алгоритм оптимизации для поиска минимума функции потерь путем изменения параметров в направлении, противоположном градиенту.
Матрица Грама (Gram matrix)
Матрица всех возможных скалярных произведений векторов в наборе данных, используемая в ядерных методах.
Тангенциальное ядро (Neural tangent kernel)
Функция, описывающая поведение нейронной сети в процессе обучения через градиенты по параметрам.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher Pedro Domingos Gradient Descent Kernel Machines Neural Tangent Kernel