# Plain Self-Ensembles: Янник Кильхер о случайном открытии в машинном обучении

Источник: https://www.youtube.com/watch?v=z_3Qv4In2ac
Канал: Yannic Kilcher
Опубликовано: 06.07.2020

---

## Plain Self-Ensembles: Как случайная идея превратилась в исследование
[[JUMP:0:00]]

Янник Кильхер (Yannic Kilcher), известный исследователь машинного обучения, продемонстрировал необычный подход к разработке научных гипотез в режиме реального времени. В ходе эксперимента, который задумывался как простая демонстрация процесса кодинга, Кильхер обнаружил эффект, который он назвал «Plain Self-Ensembles» (простые само-ансамбли). Суть метода заключается в дистилляции знаний из одной предобученной «учительской» модели в группу из нескольких «студенческих» моделей без использования шума или дополнительных данных.

### 🛠 Реализация идеи: «тупой» подход
[[JUMP:2:50]]

Идея заключалась в том, чтобы взять предобученную модель, показывающую хорошие результаты, и использовать её для обучения ансамбля из 10 (или более) студенческих моделей.

Основные этапы реализации:

1.  **Выбор базы:** В качестве платформы был выбран репозиторий с предобученными моделями для набора данных CIFAR-10 под лицензией MIT.
2.  **Оптимизация структуры:** Кильхер разделил хранение кода и данных (CIFAR-10), перенастроив скрипты загрузки весов.
3.  **Создание ансамбля:** Студенческие модели инициализировались независимо, что, по задумке автора, должно было привести их к разным точкам в пространстве параметров.
4.  **Процесс дистилляции:**
    *   Учительская модель переводилась в режим `eval` (без обучения).
    *   Использовалась функция потерь, основанная на сравнении распределений вероятностей (LogSoftmax) учителя и студентов, без использования исходных меток классов.
    *   Студенты обучались параллельно на одних и тех же данных.

### 📊 Результаты и неожиданные открытия
[[JUMP:1:03:47]]

После проведения серии экспериментов Кильхер столкнулся с результатами, которые поставили под сомнение некоторые устоявшиеся представления о дистилляции.

*   **Монотонная зависимость:** Увеличение количества студентов в ансамбле приводило к монотонному росту точности.
*   **Эффективность при малом объеме данных:** Даже при использовании той же учительской модели, студенты, обученные дольше (250 эпох вместо 100), показывали значительный прирост производительности.
*   **Сравнение с ансамблями учителей:** В контрольных экспериментах, где ансамбль состоял из учителей, обученных с нуля, результаты оказались сопоставимы с «Plain Self-Ensembles», несмотря на то, что учителя имели доступ к гораздо большему объему информации.

### 🔬 Интерпретация и выводы
[[JUMP:1:14:35]]

По мнению Кильхера, наблюдаемый эффект ансамбля не связан с извлечением из данных большего объема информации, так как студенты ограничены знаниями учителя. Автор предполагает, что феномен обусловлен особенностями ландшафта функции потерь, позволяющего исследовать различные минимумы для описания одного и того же явления.

В планах исследователя — проверить работоспособность метода «Plain Self-Ensembles» на более сложных наборах данных, таких как ImageNet, чтобы исключить вероятность случайной регуляризации. Кильхер подчеркивает, что это типичный пример того, как «глупая» идея в ходе прозрачного научного процесса может привести к интересным и неочевидным выводам.