Plain Self-Ensembles: Как случайная идея превратилась в исследование 0:00
Янник Кильхер (Yannic Kilcher), известный исследователь машинного обучения, продемонстрировал необычный подход к разработке научных гипотез в режиме реального времени. В ходе эксперимента, который задумывался как простая демонстрация процесса кодинга, Кильхер обнаружил эффект, который он назвал «Plain Self-Ensembles» (простые само-ансамбли). Суть метода заключается в дистилляции знаний из одной предобученной «учительской» модели в группу из нескольких «студенческих» моделей без использования шума или дополнительных данных.
🛠 Реализация идеи: «тупой» подход 2:50
Идея заключалась в том, чтобы взять предобученную модель, показывающую хорошие результаты, и использовать её для обучения ансамбля из 10 (или более) студенческих моделей.
Основные этапы реализации:
- Выбор базы: В качестве платформы был выбран репозиторий с предобученными моделями для набора данных CIFAR-10 под лицензией MIT.
- Оптимизация структуры: Кильхер разделил хранение кода и данных (CIFAR-10), перенастроив скрипты загрузки весов.
- Создание ансамбля: Студенческие модели инициализировались независимо, что, по задумке автора, должно было привести их к разным точкам в пространстве параметров.
- Процесс дистилляции:
- Учительская модель переводилась в режим
eval(без обучения). - Использовалась функция потерь, основанная на сравнении распределений вероятностей (LogSoftmax) учителя и студентов, без использования исходных меток классов.
- Студенты обучались параллельно на одних и тех же данных.
- Учительская модель переводилась в режим
📊 Результаты и неожиданные открытия 1:03:47
После проведения серии экспериментов Кильхер столкнулся с результатами, которые поставили под сомнение некоторые устоявшиеся представления о дистилляции.
- Монотонная зависимость: Увеличение количества студентов в ансамбле приводило к монотонному росту точности.
- Эффективность при малом объеме данных: Даже при использовании той же учительской модели, студенты, обученные дольше (250 эпох вместо 100), показывали значительный прирост производительности.
- Сравнение с ансамблями учителей: В контрольных экспериментах, где ансамбль состоял из учителей, обученных с нуля, результаты оказались сопоставимы с «Plain Self-Ensembles», несмотря на то, что учителя имели доступ к гораздо большему объему информации.
🔬 Интерпретация и выводы 1:14:35
По мнению Кильхера, наблюдаемый эффект ансамбля не связан с извлечением из данных большего объема информации, так как студенты ограничены знаниями учителя. Автор предполагает, что феномен обусловлен особенностями ландшафта функции потерь, позволяющего исследовать различные минимумы для описания одного и того же явления.
В планах исследователя — проверить работоспособность метода «Plain Self-Ensembles» на более сложных наборах данных, таких как ImageNet, чтобы исключить вероятность случайной регуляризации. Кильхер подчеркивает, что это типичный пример того, как «глупая» идея в ходе прозрачного научного процесса может привести к интересным и неочевидным выводам.