Plain Self-Ensembles: Янник Кильхер о случайном открытии в машинном обучении

Yannic Kilcher 12,8 тыс. 1 ч 18 мин 2 мин 06.07.2020

Главное

Кильхер реализовал метод Plain Self-Ensembles, дистиллируя одну модель в группу студентов.
Отсутствие шума и дополнений данных не помешало ансамблю показать рост точности.
Эффект ансамбля предположительно связан с исследованием различных минимумов функции потерь.
Исследователь планирует проверить гипотезу на наборе данных ImageNet.

Plain Self-Ensembles: Как случайная идея превратилась в исследование 0:00

Янник Кильхер (Yannic Kilcher), известный исследователь машинного обучения, продемонстрировал необычный подход к разработке научных гипотез в режиме реального времени. В ходе эксперимента, который задумывался как простая демонстрация процесса кодинга, Кильхер обнаружил эффект, который он назвал «Plain Self-Ensembles» (простые само-ансамбли). Суть метода заключается в дистилляции знаний из одной предобученной «учительской» модели в группу из нескольких «студенческих» моделей без использования шума или дополнительных данных.

🛠 Реализация идеи: «тупой» подход 2:50

Идея заключалась в том, чтобы взять предобученную модель, показывающую хорошие результаты, и использовать её для обучения ансамбля из 10 (или более) студенческих моделей.

Основные этапы реализации:

Выбор базы: В качестве платформы был выбран репозиторий с предобученными моделями для набора данных CIFAR-10 под лицензией MIT.
Оптимизация структуры: Кильхер разделил хранение кода и данных (CIFAR-10), перенастроив скрипты загрузки весов.
Создание ансамбля: Студенческие модели инициализировались независимо, что, по задумке автора, должно было привести их к разным точкам в пространстве параметров.
Процесс дистилляции:
- Учительская модель переводилась в режим eval (без обучения).
- Использовалась функция потерь, основанная на сравнении распределений вероятностей (LogSoftmax) учителя и студентов, без использования исходных меток классов.
- Студенты обучались параллельно на одних и тех же данных.

📊 Результаты и неожиданные открытия 1:03:47

После проведения серии экспериментов Кильхер столкнулся с результатами, которые поставили под сомнение некоторые устоявшиеся представления о дистилляции.

Монотонная зависимость: Увеличение количества студентов в ансамбле приводило к монотонному росту точности.
Эффективность при малом объеме данных: Даже при использовании той же учительской модели, студенты, обученные дольше (250 эпох вместо 100), показывали значительный прирост производительности.
Сравнение с ансамблями учителей: В контрольных экспериментах, где ансамбль состоял из учителей, обученных с нуля, результаты оказались сопоставимы с «Plain Self-Ensembles», несмотря на то, что учителя имели доступ к гораздо большему объему информации.

🔬 Интерпретация и выводы 1:14:35

По мнению Кильхера, наблюдаемый эффект ансамбля не связан с извлечением из данных большего объема информации, так как студенты ограничены знаниями учителя. Автор предполагает, что феномен обусловлен особенностями ландшафта функции потерь, позволяющего исследовать различные минимумы для описания одного и того же явления.

В планах исследователя — проверить работоспособность метода «Plain Self-Ensembles» на более сложных наборах данных, таких как ImageNet, чтобы исключить вероятность случайной регуляризации. Кильхер подчеркивает, что это типичный пример того, как «глупая» идея в ходе прозрачного научного процесса может привести к интересным и неочевидным выводам.

💬 Цитаты

«Это была просто демонстрация, но в конце это действительно заработало. И я такой: «О черт. Бросайте всё, разрабатывайте идею, пишите статью!»»

Янник Кильхер 0:26

«Это тот мир, в котором я хочу жить: где мы сотрудничаем в исследованиях гораздо больше, и это похоже на разработку программного обеспечения с открытым исходным кодом.»

Янник Кильхер 1:31

«Эффект ансамбля здесь может быть связан не с извлечением большей информации из данных, а с функциональным ландшафтом и исследованием различных минимумов.»

Янник Кильхер 1:15:03

👥 Спикер

Янник Кильхер — Исследователь машинного обучения и автор YouTube-канала, специализирующийся на анализе и реализации нейросетевых архитектур.

🔗 Упомянутые сайты и проекты

GitHub (CIFAR-10 models repository) — Репозиторий с предобученными моделями, использованный в качестве базовой архитектуры.

📖 Термины

Дистилляция (Distillation): Процесс обучения компактной «студенческой» модели на основе ответов более крупной и мощной «учительской» модели.
Ансамбль (Ensemble): Метод объединения предсказаний нескольких моделей для повышения итоговой точности и стабильности.
Logits: Выходные значения нейронной сети перед применением функции активации (например, Softmax).
Функция потерь (Loss function): Математическая функция, определяющая ошибку модели: чем меньше её значение, тем лучше модель справляется с задачей.

📊 Цифры

10 Количество студенческих моделей в ансамбле в начале эксперимента. — Янник Кильхер
2.4 GB Размер загружаемого архива с весами моделей CIFAR-10. — Янник Кильхер
93.33% Точность (accuracy) предобученной модели ResNet-18 на тесте. — Янник Кильхер
100 эпох Длительность обучения учительской модели. — Янник Кильхер

⚖️ Другая сторона

Ансамбли студентов из одной модели обучаются без шума и обучающих данных учителя.

Критики указывают, что в классических методах (например, noisy student) введение случайности (шума) необходимо для полноценного раскрытия потенциала ансамблей.
Plain Self-Ensembles улучшают качество модели.

Возможно, метод работает лишь как форма регуляризации для недообученных или плохо настроенных моделей, а не как фундаментальное улучшение архитектуры.