Джонатан Фрэнкл: «Нейросети — это лотерея, где мы ищем один счастливый билет»

В современном машинном обучении доминирует подход «больше — значит лучше»: модели становятся крупнее, данных — больше, а вычислительные затраты растут по экспоненте. Однако гипотеза лотерейного билета, предложенная Джонатаном Фрэнклом, ставит этот подход под сомнение, предполагая, что внутри огромных нейросетей скрываются компактные подсети, способные обучаться столь же эффективно, как и их перепараметризованные «родители».

🎟️ Суть гипотезы: поиск «счастливого билета» 8:09

Джонатан Фрэнкл поясняет, что идея уменьшения нейросетей (прунинг или «обрезка») не нова и известна еще с 1980-х годов . Традиционно сеть сначала обучают до полной готовности, а затем удаляют лишние веса, сохраняя точность. Это доказывает, что итоговое представление функции может быть компактным. Однако главный вопрос гипотезы лотерейного билета (Lottery Ticket Hypothesis, LTH) звучит иначе: могла ли сеть быть маленькой с самого начала обучения? .

Если просто взять уменьшенную архитектуру и начать обучать её с нуля случайным образом, результаты обычно оказываются неудовлетворительными. Джонатан Фрэнкл предположил, что успех обучения зависит от «удачной инициализации» конкретной подсети . Согласно его теории, процесс инициализации — это гигантская лотерея, где мы случайным образом выбираем тысячи подсетей. «Счастливый билет» — это та подсеть, чьи начальные веса позволяют ей эффективно оптимизироваться .

Основные тезисы гипотезы:

Внутри большой сети существует подсеть (winning ticket), которая при той же инициализации обучается с нуля до точности исходной сети.
Такая подсеть обучается за то же (или меньшее) количество итераций .
Ключевым фактором является не только архитектура, но и конкретные значения весов в момент .

⚖️ Проблема масштабирования и фактор нестабильности 11:32

Первоначальные эксперименты Фрэнкл проводил на небольших датасетах вроде MNIST и CIFAR-10. Когда другие исследователи попытались применить LTH к ImageNet и глубоким сетям типа ResNet-50, гипотеза, на первый взгляд, перестала работать . Фрэнкл признает, что на больших масштабах найти выигрышный билет при инициализации t=0 крайне сложно.

Решение было найдено в методе «перемотки» (rewinding). Оказалось, что если сохранять веса не из момента t=0, а из ранней фазы обучения (например, после нескольких сотен итераций), то выигрышные билеты обнаруживаются и на ImageNet . Это привело к открытию феномена нестабильности:

На ранних этапах стохастический градиентный спуск (SGD) вносит слишком много шума .
В больших сетях этот шум «сбивает» разреженные подсети с правильной траектории, и они застревают в локальных минимумах .
Как только сеть проходит фазу ранней нестабильности, её траектория становится детерминированной, и после этого момента разреженную структуру можно выделить без потери качества .

🔄 Алгоритмы: перемотка весов и циклическое обучение 19:14

В работе Фрэнкл и его коллеги сравнили два подхода: «перемотку весов» (Weight Rewinding) и «перемотку скорости обучения» (Learning Rate Rewinding) . Исследователи обнаружили удивительный факт: для получения качественной сжатой модели не обязательно сбрасывать сами веса к начальным значениям.

По словам Фрэнкл, если использовать ту же схему изменения Learning Rate (скорости обучения), что и в начале процесса (снова поднимать её до максимума и плавно снижать), можно достичь результатов уровня State-of-the-art в прунинге, даже не меняя веса на исходные . Этот метод оказался проще и эффективнее многих сложных алгоритмов сжатия, предлагавшихся в последние 10 лет .

Особенности процесса итеративного прунинга (IMP):

Сеть обучается до конца.
Удаляется определенный процент весов с наименьшей амплитудой.
Оставшиеся веса либо «перематываются» к ранним значениям, либо продолжают обучаться с обновленным графиком Learning Rate .
Процесс повторяется итеративно, пока не будет достигнута нужная степень разреженности .

📉 Линейная связность мод (Linear Mode Connectivity) 25:38

Чтобы понять, почему одни подсети обучаются, а другие нет, Фрэнкл использовал анализ ландшафта потерь. Исследователи брали две копии одной и той же сети, обучали их на разных выборках данных (разный шум SGD) и проверяли, находятся ли итоги обучения в одном и том же «минимуме» (долине) ландшафта .

Если между двумя наборами весов можно провести прямую линию, вдоль которой функция потерь остается низкой, значит, сети обладают «линейной связностью мод» . Фрэнкл утверждает:

Для плотных (стандартных) сетей этот параметр почти всегда соблюдается.
Для разреженных подсетей связность появляется только после прохождения фазы нестабильности .
Линейная связность является отличным предиктором того, сможет ли «лотерейный билет» успешно обучиться .

💻 Барьеры внедрения: железо против науки 34:06

Несмотря на теоретическую красоту разреженных сетей, на практике они пока не дают значительного ускорения на стандартном оборудовании. Джонатан Фрэнкл отмечает, что современные GPU и CPU оптимизированы для плотных матричных вычислений .

Ситуация на рынке железа:

GPU: Плохо справляются с неструктурированной разреженностью. Чтобы получить реальный выигрыш в скорости, модель должна быть разрежена на 50–90% .
Специализированные чипы: Компании вроде Graphcore и Cerebras создают архитектуры, где разреженность — это «примитив первого класса» .
Альтернативы: OpenAI активно работает над блочной разреженностью (block sparsity), которая лучше ложится на текущее железо .

По мнению Фрэнкл, разреженность естественна для нейросетей, и отсутствие поддержки в железе — лишь временный барьер. Его исследования в области интерпретируемости показывают, что удаление «лишних» весов практически не влияет на то, как сеть воспринимает данные .

🛡️ Этика и государственная политика в сфере ИИ 1:06:39

Помимо математики, Джонатан Фрэнкл активно занимается технологической политикой (Tech Policy). Он преподает право в Джорджтаунском университете и консультирует ОЭСР по принципам ИИ . Фрэнкл призывает сообщество разработчиков отказаться от «технологического высокомерия» (hubris) — веры в то, что алгоритмы могут переизобрести право и этику без участия экспертов в этих областях .

Основные риски, выделяемые Фрэнклом:

Кредитный скоринг: Нейросети принимают решения о выдаче займов, основываясь на данных, которые мы до конца не понимаем .
Распознавание лиц: Полиция использует модели, обученные на предвзятых выборках (например, только на белых знаменитостях), что ведет к несправедливым арестам .
Отсутствие аудита: Многие алгоритмы, продаваемые государству, — это «сырые нейросети, обученные в подвале», которые никто не тестировал на дискриминацию .

Фрэнкл считает, что инженеры должны не сами решать, что «справедливо», а создавать инструменты (например, формальные определения справедливости), которые позволят политикам делать осознанный выбор . «Вы можете не знать, как алгоритм принимает решение, но вы обязаны его тестировать», — подчеркивает исследователь .

🎓 Путь исследователя: от провала к успеху 1:18:40

История создания гипотезы лотерейного билета — это история упорства. Фрэнкл признается, что за три недели до получения первых результатов он звонил своему ментору и всерьез обсуждал уход из аспирантуры MIT . Его работа над LTH была первым проектом в области глубокого обучения: до этого он занимался криптографией, безопасностью и теорией языков программирования .

Джонатан Фрэнкл дает советы молодым ученым:

Будьте терпеливы: Исследования — это череда неудач, прерываемая редкими успехами .
Математики много не бывает: Новые инсайты часто приходят после изучения «хардкорных» математических дисциплин .
Используйте то, что есть: Первая версия статьи LTH была написана на одолженных GPU и запускалась на обычном ноутбуке .

Фрэнкл надеется, что через пять лет его гипотеза будет забыта, так как сообщество продвинется гораздо дальше в понимании того, как на самом деле работают нейронные сети .