Янник Килхер о новом обучаемом оптимизаторе от Google: «Интересно, но сыро»

Оптимизация оптимизаторов: Будущее обучения нейронных сетей

Исследователи из Google, включая Люка Метца (Luke Metz) и его коллег, представили амбициозную работу по созданию «обучаемых оптимизаторов» — алгоритмов, которые способны самостоятельно обучаться и затем эффективно тренировать другие модели машинного обучения. По мнению автора канала Yannic Kilcher, это направление является попыткой совершить такой же качественный скачок в области оптимизации, какой в свое время совершило глубокое обучение при переходе от ручной настройки признаков к их автоматическому изучению.

Что такое обучаемые оптимизаторы и зачем они нужны?

Традиционные методы оптимизации, такие как градиентный спуск, SGD с моментом или Adam, полагаются на математические формулы, «выведенные» человеком.

Человеческий фактор: Исследователи задаются вопросом: если глубокое обучение лучше справляется с извлечением признаков, чем человек, нельзя ли позволить алгоритмам самим «изобретать» процедуры оптимизации?
Гибкость: Обучаемый оптимизатор (обозначаемый как $f$) принимает на вход параметры нейронной сети, градиенты и дополнительные мета-данные, чтобы на выходе выдать обновленные веса.
Цель: Создать единую функцию $f$, способную эффективно обучать самые разные архитектуры — от простых CNN до сложных трансформеров.

Архитектура: LSTM и «грязная» инженерия признаков

В основе предложенного решения лежит иерархическая структура, использующая LSTM и полносвязные сети (MLP) для каждого обучаемого параметра.

Как это работает: На каждом шаге оптимизации MLP выдает два числовых значения, которые модифицируют параметры сети.
Входные данные: Помимо градиентов, в модель подаются текущие веса, моменты, значения функции потерь (обучающей и валидационной) и информация о масштабе тензоров.
Критика Yannic Kilcher: По словам автора видео, это возвращает нас к проблеме «ручной инженерии признаков», от которой разработчики якобы хотели уйти. Хотя исследователи утверждают, что модель обучаема, выбор того, что именно подавать на вход оптимизатору, критически влияет на итоговый результат.

Обучение через эволюцию

Основная проблема обучения таких систем — невозможность прямого обратного распространения ошибки через тысячи шагов оптимизации.

Эволюционные стратегии: Чтобы обойти это ограничение, авторы используют эволюционные стратегии (ES) — методы оптимизации без производных.
Как это реализовано: Исследователи создают «популяцию» оптимизаторов, слегка варьируя их параметры, и смещают их в сторону тех, что показали лучшие результаты на валидационной выборке.
Замечание автора: Yannic Kilcher отмечает, что описание этого процесса в статье крайне туманно, а использование Adam для «внешней» оптимизации после применения ES выглядит как попытка смешать разные подходы, что вызывает вопросы к прозрачности логики.

Результаты и главный парадокс

Авторы сравнивают свой оптимизатор с классическими методами, подчеркивая отсутствие необходимости в настройке гиперпараметров (например, скорости обучения) после завершения процесса обучения.

Эффективность: На небольших задачах оптимизатор действительно показывает хорошие результаты и, по-видимому, обладает «неявной регуляризацией», притягивая веса к нулю.
Масштабируемость: Главная слабость исследования — работа только с «игрушечными» задачами (MNIST, CIFAR-10, малые ResNet). Yannic Kilcher утверждает, что на больших моделях и реальных данных оптимизатор проигрывает Adam и SGD.
Парадокс: Оптимизатор избавляет от поиска гиперпараметров на простых задачах, где их поиск не составляет труда, но не применим к сложным задачам, где такой поиск был бы наиболее полезен.

Финальный вердикт

В завершающем эксперименте модель попытались использовать для обучения самой себя («саморекурсия» оптимизатора), однако результаты показали, что она не может достичь такого же качества, как при обучении стандартными методами.

Автор видео резюмирует, что это «крутая работа» с точки зрения академического поиска, но в текущем виде она ограничена вычислительными мощностями и неясностью архитектурных решений. Отдельно Янник Килхер раскритиковал раздел «Более широкое влияние» (Broader Impact), назвав его «мемом» из-за шаблонных фраз о том, что технологии — это просто «хорошо, плохо или предвзято», без реального анализа конкретных рисков данной работы.