Джонатан Фрэнкл: «Нейросети — это лотерея, где мы ищем один счастливый билет»

Machine Learning Street Talk 10,4 тыс. 1 ч 26 мин 5 мин 02.05.2020
Главное

В современном машинном обучении доминирует подход «больше — значит лучше»: модели становятся крупнее, данных — больше, а вычислительные затраты растут по экспоненте. Однако гипотеза лотерейного билета, предложенная Джонатаном Фрэнклом, ставит этот подход под сомнение, предполагая, что внутри огромных нейросетей скрываются компактные подсети, способные обучаться столь же эффективно, как и их перепараметризованные «родители».

🎟️ Суть гипотезы: поиск «счастливого билета» 8:09

Джонатан Фрэнкл поясняет, что идея уменьшения нейросетей (прунинг или «обрезка») не нова и известна еще с 1980-х годов . Традиционно сеть сначала обучают до полной готовности, а затем удаляют лишние веса, сохраняя точность. Это доказывает, что итоговое представление функции может быть компактным. Однако главный вопрос гипотезы лотерейного билета (Lottery Ticket Hypothesis, LTH) звучит иначе: могла ли сеть быть маленькой с самого начала обучения? .

Если просто взять уменьшенную архитектуру и начать обучать её с нуля случайным образом, результаты обычно оказываются неудовлетворительными. Джонатан Фрэнкл предположил, что успех обучения зависит от «удачной инициализации» конкретной подсети . Согласно его теории, процесс инициализации — это гигантская лотерея, где мы случайным образом выбираем тысячи подсетей. «Счастливый билет» — это та подсеть, чьи начальные веса позволяют ей эффективно оптимизироваться .

Основные тезисы гипотезы:

⚖️ Проблема масштабирования и фактор нестабильности 11:32

Первоначальные эксперименты Фрэнкл проводил на небольших датасетах вроде MNIST и CIFAR-10. Когда другие исследователи попытались применить LTH к ImageNet и глубоким сетям типа ResNet-50, гипотеза, на первый взгляд, перестала работать . Фрэнкл признает, что на больших масштабах найти выигрышный билет при инициализации t=0 крайне сложно.

Решение было найдено в методе «перемотки» (rewinding). Оказалось, что если сохранять веса не из момента t=0, а из ранней фазы обучения (например, после нескольких сотен итераций), то выигрышные билеты обнаруживаются и на ImageNet . Это привело к открытию феномена нестабильности:

  1. На ранних этапах стохастический градиентный спуск (SGD) вносит слишком много шума .
  2. В больших сетях этот шум «сбивает» разреженные подсети с правильной траектории, и они застревают в локальных минимумах .
  3. Как только сеть проходит фазу ранней нестабильности, её траектория становится детерминированной, и после этого момента разреженную структуру можно выделить без потери качества .

🔄 Алгоритмы: перемотка весов и циклическое обучение 19:14

В работе Фрэнкл и его коллеги сравнили два подхода: «перемотку весов» (Weight Rewinding) и «перемотку скорости обучения» (Learning Rate Rewinding) . Исследователи обнаружили удивительный факт: для получения качественной сжатой модели не обязательно сбрасывать сами веса к начальным значениям.

По словам Фрэнкл, если использовать ту же схему изменения Learning Rate (скорости обучения), что и в начале процесса (снова поднимать её до максимума и плавно снижать), можно достичь результатов уровня State-of-the-art в прунинге, даже не меняя веса на исходные . Этот метод оказался проще и эффективнее многих сложных алгоритмов сжатия, предлагавшихся в последние 10 лет .

Особенности процесса итеративного прунинга (IMP):

📉 Линейная связность мод (Linear Mode Connectivity) 25:38

Чтобы понять, почему одни подсети обучаются, а другие нет, Фрэнкл использовал анализ ландшафта потерь. Исследователи брали две копии одной и той же сети, обучали их на разных выборках данных (разный шум SGD) и проверяли, находятся ли итоги обучения в одном и том же «минимуме» (долине) ландшафта .

Если между двумя наборами весов можно провести прямую линию, вдоль которой функция потерь остается низкой, значит, сети обладают «линейной связностью мод» . Фрэнкл утверждает:

💻 Барьеры внедрения: железо против науки 34:06

Несмотря на теоретическую красоту разреженных сетей, на практике они пока не дают значительного ускорения на стандартном оборудовании. Джонатан Фрэнкл отмечает, что современные GPU и CPU оптимизированы для плотных матричных вычислений .

Ситуация на рынке железа:

По мнению Фрэнкл, разреженность естественна для нейросетей, и отсутствие поддержки в железе — лишь временный барьер. Его исследования в области интерпретируемости показывают, что удаление «лишних» весов практически не влияет на то, как сеть воспринимает данные .

🛡️ Этика и государственная политика в сфере ИИ 1:06:39

Помимо математики, Джонатан Фрэнкл активно занимается технологической политикой (Tech Policy). Он преподает право в Джорджтаунском университете и консультирует ОЭСР по принципам ИИ . Фрэнкл призывает сообщество разработчиков отказаться от «технологического высокомерия» (hubris) — веры в то, что алгоритмы могут переизобрести право и этику без участия экспертов в этих областях .

Основные риски, выделяемые Фрэнклом:

Фрэнкл считает, что инженеры должны не сами решать, что «справедливо», а создавать инструменты (например, формальные определения справедливости), которые позволят политикам делать осознанный выбор . «Вы можете не знать, как алгоритм принимает решение, но вы обязаны его тестировать», — подчеркивает исследователь .

🎓 Путь исследователя: от провала к успеху 1:18:40

История создания гипотезы лотерейного билета — это история упорства. Фрэнкл признается, что за три недели до получения первых результатов он звонил своему ментору и всерьез обсуждал уход из аспирантуры MIT . Его работа над LTH была первым проектом в области глубокого обучения: до этого он занимался криптографией, безопасностью и теорией языков программирования .

Джонатан Фрэнкл дает советы молодым ученым:

  1. Будьте терпеливы: Исследования — это череда неудач, прерываемая редкими успехами .
  2. Математики много не бывает: Новые инсайты часто приходят после изучения «хардкорных» математических дисциплин .
  3. Используйте то, что есть: Первая версия статьи LTH была написана на одолженных GPU и запускалась на обычном ноутбуке .

Фрэнкл надеется, что через пять лет его гипотеза будет забыта, так как сообщество продвинется гораздо дальше в понимании того, как на самом деле работают нейронные сети .

💬 Цитаты

«Может быть, весь процесс инициализации — это просто гигантская лотерея, где мы выбираем подсети в надежде, что одна из них окажется удачной.»

Джонатан Фрэнкл 10:32

«Если мы будем говорить о гипотезе лотерейного билета через пять лет — это плохой знак для области, значит, мы не продвинулись в понимании основ.»

Джонатан Фрэнкл 1:24:27

«Вы можете не понимать, как работает алгоритм, но вы можете и обязаны его тестировать на предвзятость.»

Джонатан Фрэнкл 1:15:23
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Pruning (Прунинг)
Процесс удаления весов или целых нейронов из сети для уменьшения её размера без потери точности.
SGD Noise
Случайные колебания в процессе градиентного спуска, вызванные обучением на малых группах данных (батчах).
Linear Mode Connectivity
Свойство двух обученных нейросетей находиться в одном и том же минимуме функции потерь, так что путь между ними линеен.
Rewinding (Перемотка)
Метод сброса весов или параметров обучения к их значениям на раннем этапе тренировки.
Winning Ticket (Выигрышный билет)
Подсеть, которая при исходной инициализации способна достичь максимальной точности обучения.
📊 Цифры
🗓 Хронология
  1. 1980-е Появление первых работ по прунингу (сжатию) нейронных сетей.
  2. 2019 Статья Джонатана Фрэнкл о гипотезе лотерейного билета получает награду Best Paper на ICLR.
  3. 2020 Публикация работ о линейной связности мод и стабильности лотерейных билетов.
  4. Май 2020 Двухлетие работы Джонатана Фрэнкл в области Deep Learning.
⚖️ Другая сторона
Искусственный интеллект Джонатан Фрэнкл Lottery Ticket Hypothesis Pruning Linear Mode Connectivity SGD noise