Янник Кильхер: деконструкция гипотезы лотерейных билетов в нейросетях

Yannic Kilcher 14,2 тыс. 35 мин 2 мин 29.04.2020
Главное

Деконструкция «лотерейных билетов»: нули, знаки и супермаски в нейросетях 🤖 0:00

Исследование «Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask», проведенное командой Google AI, предлагает углубленный взгляд на гипотезу «лотерейных билетов» (Lottery Ticket Hypothesis). Янник Кильхер (Yannic Kilcher) детально разбирает, какие аспекты процесса обучения нейросетей действительно важны для отбора «выигрышных» подсетей и как можно улучшить алгоритмы их выделения.

🔍 Основы гипотезы «лотерейных билетов» 0:28

Гипотеза «лотерейных билетов» утверждает, что в любой достаточно большой нейронной сети существует подмножество весов, способное достичь аналогичной или даже превосходящей точности, если обучать его отдельно. Ключевой момент — инициализация: для успеха подсеть должна иметь те же начальные значения весов, что и исходная полная сеть.

Классический алгоритм «лотерейного билета» включает три шага:

  1. Обучение полной сети до завершения.
  2. Отбор весов с наибольшей величиной по итогам обучения.
  3. Сброс весов к их исходным значениям и повторное обучение полученной подсети.

📉 Критерии отбора весов: что работает? 9:27

Авторы исследования проверяют, какие критерии отбора наиболее эффективны. По словам Янника Кильхера, оригинальный подход (отбор по величине финального веса) остается весьма надежным. Исследователи также изучили альтернативные методы:

Кильхер отмечает, что хотя «Magnitude increase» иногда показывает лучшие результаты, он не считает его радикально превосходящим оригинал. По мнению ведущего, многие из этих критериев измеряют схожие показатели, и разница в производительности часто статистически незначима при малом количестве запусков.

🎭 «Супермаски»: обучение без изменения весов 28:30

Одной из самых интригующих находок стали так называемые «супермаски» — применение маски к нетренированной сети.

🧐 Критика и выводы ведущего 33:27

Кильхер скептически относится к некоторым интерпретациям авторов, особенно в отношении роли знака веса (Init sign). Он полагает, что успех многих методов обусловлен лишь тем, что они принудительно приближают веса к их оптимальным значениям.

В финале обзора ведущий предлагает собственную гипотезу, объясняющую успех метода: эффективность «лотерейных билетов» напрямую зависит от сложности задачи. Чем проще задача (например, MNIST), тем легче найти удачную маску. Однако на сложных наборах данных (ImageNet) эффективность подобных методов падает, что ставит под вопрос универсальность гипотезы.

💬 Цитаты

«Это следствие того, что SGD пытается приложить как можно меньше усилий для достижения цели.»

Янник Кильхер 04:40

«Мне кажется, авторы переинтерпретируют многие вещи; в конечном счете все сводится к приближению весов к их оптимальным значениям.»

Янник Кильхер 28:05
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Lottery Ticket Hypothesis
Концепция, согласно которой внутри больших нейросетей существуют компактные подсети, способные достичь точности исходной модели.
Прунинг (Pruning)
Метод оптимизации нейросетей, при котором удаляются («обнуляются») веса, вносящие минимальный вклад в результат.
SGD (Stochastic Gradient Descent)
Алгоритм градиентного спуска, используемый для обучения нейронных сетей методом коррекции весов.
Маска (Mask)
Бинарный фильтр, который определяет, какие веса в нейросети будут обучаться, а какие — останутся неактивными.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Lottery Ticket Hypothesis Yannic Kilcher Supermask SGD Neural Networks