# Янник Кильхер: «В нейросети BERT почти любой фрагмент может стать выигрышным»

Источник: https://www.youtube.com/watch?v=IIebBjbBevs
Канал: Yannic Kilcher
Опубликовано: 22.05.2020

---

В новом видео Янник Кильхер (Yannic Kilcher) разбирает научную работу «When BERT Plays the Lottery, All Tickets Are Winning». Исследование проверяет знаменитую «гипотезу лотерейного билета» на архитектуре BERT и приходит к парадоксальному выводу: в этой нейросети практически невозможно найти по-настоящему «бесполезные» части, так как даже «проигрышные» модули после дообучения показывают отличные результаты.

## 🧠 Что такое гипотеза лотерейного билета?
[[JUMP:03:24]]

Для понимания сути исследования Янник Кильхер объясняет классическую концепцию «лотерейных билетов» в машинном обучении. Обычно нейросети избыточны: после обучения их можно значительно сократить (прунинг), удалив ненужные связи без потери точности [04:15]. Однако если просто создать маленькую сеть и попытаться обучить её с нуля, она часто не достигает тех же высот, что и большая.

Согласно гипотезе лотерейного билета:

*   Внутри большой случайно инициализированной сети существует подсеть («выигрышный билет»), которая при той же начальной инициализации способна обучаться эффективно [07:08].
*   Чтобы найти такой билет, нужно обучить полную сеть, определить важные веса, а затем «откатить» их к исходным значениям, удалив всё остальное [05:48].

## 🏗️ Особенности BERT: почему обычный прунинг здесь не работает
[[JUMP:07:35]]

BERT — это не просто полносвязная сеть, а трансформер, состоящий из множества слоев, каждый из которых включает головки внимания (attention heads) и блоки многослойного перцептрона (MLP) [08:03]. В отличие от классических исследований, авторы обсуждаемой статьи прунят не отдельные веса, а целые структурные модули [09:50].

Янник Кильхер отмечает важное качественное отличие:

*   **Научный интерес:** Прунинг отдельных весов (sparse pruning) интересен науке, но бесполезен на текущем железе (GPU), так как дырявые матрицы не ускоряют вычисления [11:07].
*   **Практическая польза:** Удаление целых головок внимания или MLP-слоев реально ускоряет модель, так как исключаются целые операции матричного умножения [11:49].

При этом BERT — это предобученная модель (на задаче Masked Language Modeling). Это значит, что поиск «билетов» ведется не в случайном шуме, а в весах, уже содержащих лингвистические знания [21:32].

## 🎰 Эксперимент: все ли билеты выигрышные?
[[JUMP:12:59]]

Авторы статьи проверили BERT на наборе задач GLUE [13:25]. Они определили «важные» модули, используя градиент функции потерь: если при удалении модуля ошибка почти не меняется, значит, он не важен [18:57].

Ключевые открытия:

1.  **Хорошие подсети существуют:** Можно удалить значительную часть модели, сохранив 90% исходной точности [19:15].
2.  **Задачи диктуют свои правила:** Те головки внимания, которые критически важны для определения сентимента (настроения текста), могут оказаться бесполезными для проверки грамматики [15:13]. Универсально полезных головок почти нет [28:45].
3.  **Парадокс «плохих» билетов:** Если взять «плохой» билет (те части, которые прунинг счел бесполезными) и заново обучить его, он покажет результат, почти идентичный «хорошему» билету [14:43].

Именно этот последний пункт дал название статье. Янник Кильхер подчеркивает: в BERT, в отличие от простых сетей, почти любая достаточно большая подсеть способна «выиграть в лотерею», если дать ей шанс на дообучение [42:30].

## 🧐 Спорные моменты и интерпретация результатов
[[JUMP:43:13]]

Янник Кильхер выражает сомнение в том, что результаты статьи действительно опровергают оригинальную гипотезу лотерейного билета. Он приводит мнение Джонатана Франко (автора оригинальной гипотезы), который утверждает:

*   Если ваша подсеть составляет 50% от оригинала, в ней чисто статистически спрятано еще несколько полноценных «выигрышных билетов» [44:59].
*   Комбинаторное количество успешных подсетей огромно.

По мнению ведущего, авторы статьи используют слишком «грубый» прунинг [46:18]. Удаляя целый модуль (MLP или головку), они могут убивать «плохие» веса вместе с «хорошими», и оставшихся хороших весов в «плохом» модуле всё равно хватает для успешного обучения [47:11]. Это объясняет, почему «плохие» билеты в итоге всё равно справляются с задачами.

## 📊 Лингвистический анализ: что помнит BERT?
[[JUMP:23:14]]

Статья также проливает свет на то, как BERT хранит знания. Исследователи обнаружили, что:

*   При одновременном прунинге головок и MLP основная нагрузка перекладывается на последние слои сети [28:07].
*   Разные задачи из набора GLUE используют разные наборы головок, но между ними есть пересечения, которые могут коррелировать с типом лингвистической информации, необходимой для решения [31:30].
*   Интересно, что 86% головок внимания оказались «специализированными» — они нужны для одних задач, но не нужны для других [52:30].