Янник Килчер: «Поиск нейросетвых архитектур за 2 секунды без обучения возможен»

В современном мире глубокого обучения создание эффективной нейросетевой архитектуры часто напоминает искусство или алхимию. Традиционно исследователи полагались либо на интуицию, либо на чрезвычайно ресурсозатратные методы автоматического поиска (Neural Architecture Search, NAS). Однако группа исследователей в составе Джозефа Меллора, Джека Тернера, Эймоса Сторки и Эллиота Дж. Кроули предложила радикально иной подход — поиск оптимальных структур без этапа обучения.

🧠 Что такое Neural Architecture Search и почему это дорого? 0:54

Neural Architecture Search (NAS) — это дисциплина, целью которой является автоматизация проектирования нейронных сетей . Вместо того чтобы вручную подбирать количество слоев, размеры ядер свертки или типы функций активации, инженер задает пространство поиска, а алгоритм пытается найти в нем архитектуру с наилучшими показателями.

Традиционный процесс NAS выглядит следующим образом:

Контроллер: Специальный агент (часто другая нейросеть), который генерирует «план здания» для новой модели .
Обучение: Каждая предложенная модель обучается «с нуля» на полном наборе данных (например, CIFAR-10) в течение тысяч итераций .
Обратная связь: Финальная точность модели возвращается контроллеру как награда в системе обучения с подкреплением .

Основная проблема этого подхода — его колоссальная стоимость. Ведущий Янник Килчер отмечает, что обучение сотен и тысяч кандидатных сетей требует огромных вычислительных ресурсов и времени, что блокирует развитие области для всех, у кого нет доступа к огромным GPU-фермам .

📉 Метод: Якобианы и корреляция на старте 6:40

Авторы обсуждаемой статьи предложили оценивать потенциал нейросети еще до того, как в нее поступит первый градиент в процессе обучения. Идея заключается в анализе «моделирующей гибкости» (modeling flexibility) сети в ее начальном состоянии .

Техническая реализация метода опирается на следующие шаги:

Линеаризация: Нейронная сеть рассматривается как сложная нелинейная функция. Исследователи «замораживают» сеть в момент инициализации и смотрят на ее поведение в локальной окрестности конкретной точки данных .
Вычисление Якобиана: Для каждого примера из небольшого батча данных вычисляется градиент выхода сети по отношению к входу (а не к весам, как при обычном обучении) .
Матрица корреляции: На основе полученных векторов строится матрица корреляции. Она показывает, насколько похожи «взгляды» сети на разные объекты в пространстве данных .

По мнению Килчера, суть метода в том, что по-настоящему хорошая архитектура должна быть выразительной сразу . Если сеть выдает сильно коррелированные (похожие) ответы для разных данных, она считается «дегенеративной». В такой сети многие параметры фактически не работают, и сигнал через них не проходит эффективно . Напротив, если ответы сети на разные стимулы слабо коррелируют между собой (гистограмма корреляций сосредоточена около нуля), такая архитектура обладает высокой гибкостью и потенциалом к обучению .

📊 Эксперименты на бенчмарке NAS-Bench-201 19:13

Для проверки своей теории авторы использовали стандартный бенчмарк NAS-Bench-201, содержащий 15 625 возможных архитектур . Каждая архитектура в этом наборе уже была обучена и протестирована, что позволило сравнить предсказания метода с реальными результатами.

Основные результаты экспериментов:

Корреляция с успехом: Между «оценкой по Якобиану» в момент инициализации и итоговой точностью после обучения прослеживается явная линейная зависимость .
Отсеивание мусора: Янник Килчер предполагает, что метод особенно хорош для быстрого отсеивания архитектур с фундаментальными изъянами («дегенеративных»), которые в принципе не способны обучаться эффективно .
Работа с белым шумом: Удивительно, но метод показывает корректные результаты даже в том случае, если на вход сети вместо реальных изображений подавать обычный белый шум . Это доказывает, что оценивается именно структурное свойство самой архитектуры, а не её взаимодействие с конкретными признаками данных .

⏱ Скорость против точности: 2 секунды вместо 3 часов 28:50

Главным достижением работы стала беспрецедентная скорость поиска. В то время как классические методы NAS требуют около 12 000 секунд (более 3 часов) на поиск оптимальной сети, предложенный метод справляется за 1.7 секунды на одном GPU .

Результаты сравнения (на наборе данных CIFAR-10):

Традиционный NAS: Достигает точности ~93.9% .
Метод без обучения: Позволяет найти архитектуру с точностью 91.5% .

Разница в 2% точности является существенной в академической среде, однако Килчер подчеркивает, что разрыв в скорости достигает четырех порядков . Если верить данным статьи, метод переигрывает многие другие способы «быстрого» поиска (weight sharing), обеспечивая приемлемый результат за ничтожное время .

💡 Вердикт и перспективы 32:58

Несмотря на впечатляющие цифры, у метода есть ограничения. Как отмечает ведущий, метод хорошо находит «архитектуры на 90%», но ему сложно дифференцировать топовых исполнителей между собой . При увеличении количества оцениваемых моделей в поиске может возникать шум, из-за чего итоговая точность даже немного снижается .

Килчер предлагает рассматривать этот подход как инструмент предварительного отбора:

Сгенерировать тысячи случайных архитектур.
За несколько секунд отсеять 99% «дегенеративных» вариантов с помощью анализа Якобиана.
Оставшиеся перспективные модели дообучить или исследовать более глубокими методами.

Данный подход может быть особенно ценен в новых областях, где еще нет устоявшихся стандартов вроде ResNet или VGG, и исследователям нужно быстро понять, в каком направлении проектировать новые нейросети .