Янник Кильхер: «В нейросети BERT почти любой фрагмент может стать выигрышным»

В новом видео Янник Кильхер (Yannic Kilcher) разбирает научную работу «When BERT Plays the Lottery, All Tickets Are Winning». Исследование проверяет знаменитую «гипотезу лотерейного билета» на архитектуре BERT и приходит к парадоксальному выводу: в этой нейросети практически невозможно найти по-настоящему «бесполезные» части, так как даже «проигрышные» модули после дообучения показывают отличные результаты.

🧠 Что такое гипотеза лотерейного билета? 3:24

Для понимания сути исследования Янник Кильхер объясняет классическую концепцию «лотерейных билетов» в машинном обучении. Обычно нейросети избыточны: после обучения их можно значительно сократить (прунинг), удалив ненужные связи без потери точности . Однако если просто создать маленькую сеть и попытаться обучить её с нуля, она часто не достигает тех же высот, что и большая.

Согласно гипотезе лотерейного билета:

Внутри большой случайно инициализированной сети существует подсеть («выигрышный билет»), которая при той же начальной инициализации способна обучаться эффективно .
Чтобы найти такой билет, нужно обучить полную сеть, определить важные веса, а затем «откатить» их к исходным значениям, удалив всё остальное .

🏗️ Особенности BERT: почему обычный прунинг здесь не работает 7:35

BERT — это не просто полносвязная сеть, а трансформер, состоящий из множества слоев, каждый из которых включает головки внимания (attention heads) и блоки многослойного перцептрона (MLP) . В отличие от классических исследований, авторы обсуждаемой статьи прунят не отдельные веса, а целые структурные модули .

Янник Кильхер отмечает важное качественное отличие:

Научный интерес: Прунинг отдельных весов (sparse pruning) интересен науке, но бесполезен на текущем железе (GPU), так как дырявые матрицы не ускоряют вычисления .
Практическая польза: Удаление целых головок внимания или MLP-слоев реально ускоряет модель, так как исключаются целые операции матричного умножения .

При этом BERT — это предобученная модель (на задаче Masked Language Modeling). Это значит, что поиск «билетов» ведется не в случайном шуме, а в весах, уже содержащих лингвистические знания .

🎰 Эксперимент: все ли билеты выигрышные? 12:59

Авторы статьи проверили BERT на наборе задач GLUE . Они определили «важные» модули, используя градиент функции потерь: если при удалении модуля ошибка почти не меняется, значит, он не важен .

Ключевые открытия:

Хорошие подсети существуют: Можно удалить значительную часть модели, сохранив 90% исходной точности .
Задачи диктуют свои правила: Те головки внимания, которые критически важны для определения сентимента (настроения текста), могут оказаться бесполезными для проверки грамматики . Универсально полезных головок почти нет .
Парадокс «плохих» билетов: Если взять «плохой» билет (те части, которые прунинг счел бесполезными) и заново обучить его, он покажет результат, почти идентичный «хорошему» билету .

Именно этот последний пункт дал название статье. Янник Кильхер подчеркивает: в BERT, в отличие от простых сетей, почти любая достаточно большая подсеть способна «выиграть в лотерею», если дать ей шанс на дообучение .

🧐 Спорные моменты и интерпретация результатов 43:13

Янник Кильхер выражает сомнение в том, что результаты статьи действительно опровергают оригинальную гипотезу лотерейного билета. Он приводит мнение Джонатана Франко (автора оригинальной гипотезы), который утверждает:

Если ваша подсеть составляет 50% от оригинала, в ней чисто статистически спрятано еще несколько полноценных «выигрышных билетов» .
Комбинаторное количество успешных подсетей огромно.

По мнению ведущего, авторы статьи используют слишком «грубый» прунинг . Удаляя целый модуль (MLP или головку), они могут убивать «плохие» веса вместе с «хорошими», и оставшихся хороших весов в «плохом» модуле всё равно хватает для успешного обучения . Это объясняет, почему «плохие» билеты в итоге всё равно справляются с задачами.

📊 Лингвистический анализ: что помнит BERT? 23:14

Статья также проливает свет на то, как BERT хранит знания. Исследователи обнаружили, что:

При одновременном прунинге головок и MLP основная нагрузка перекладывается на последние слои сети .
Разные задачи из набора GLUE используют разные наборы головок, но между ними есть пересечения, которые могут коррелировать с типом лингвистической информации, необходимой для решения .
Интересно, что 86% головок внимания оказались «специализированными» — они нужны для одних задач, но не нужны для других .