В новом видео Янник Кильхер (Yannic Kilcher) разбирает научную работу «When BERT Plays the Lottery, All Tickets Are Winning». Исследование проверяет знаменитую «гипотезу лотерейного билета» на архитектуре BERT и приходит к парадоксальному выводу: в этой нейросети практически невозможно найти по-настоящему «бесполезные» части, так как даже «проигрышные» модули после дообучения показывают отличные результаты.
🧠 Что такое гипотеза лотерейного билета? 3:24
Для понимания сути исследования Янник Кильхер объясняет классическую концепцию «лотерейных билетов» в машинном обучении. Обычно нейросети избыточны: после обучения их можно значительно сократить (прунинг), удалив ненужные связи без потери точности . Однако если просто создать маленькую сеть и попытаться обучить её с нуля, она часто не достигает тех же высот, что и большая.
Согласно гипотезе лотерейного билета:
- Внутри большой случайно инициализированной сети существует подсеть («выигрышный билет»), которая при той же начальной инициализации способна обучаться эффективно .
- Чтобы найти такой билет, нужно обучить полную сеть, определить важные веса, а затем «откатить» их к исходным значениям, удалив всё остальное .
🏗️ Особенности BERT: почему обычный прунинг здесь не работает 7:35
BERT — это не просто полносвязная сеть, а трансформер, состоящий из множества слоев, каждый из которых включает головки внимания (attention heads) и блоки многослойного перцептрона (MLP) . В отличие от классических исследований, авторы обсуждаемой статьи прунят не отдельные веса, а целые структурные модули .
Янник Кильхер отмечает важное качественное отличие:
- Научный интерес: Прунинг отдельных весов (sparse pruning) интересен науке, но бесполезен на текущем железе (GPU), так как дырявые матрицы не ускоряют вычисления .
- Практическая польза: Удаление целых головок внимания или MLP-слоев реально ускоряет модель, так как исключаются целые операции матричного умножения .
При этом BERT — это предобученная модель (на задаче Masked Language Modeling). Это значит, что поиск «билетов» ведется не в случайном шуме, а в весах, уже содержащих лингвистические знания .
🎰 Эксперимент: все ли билеты выигрышные? 12:59
Авторы статьи проверили BERT на наборе задач GLUE . Они определили «важные» модули, используя градиент функции потерь: если при удалении модуля ошибка почти не меняется, значит, он не важен .
Ключевые открытия:
- Хорошие подсети существуют: Можно удалить значительную часть модели, сохранив 90% исходной точности .
- Задачи диктуют свои правила: Те головки внимания, которые критически важны для определения сентимента (настроения текста), могут оказаться бесполезными для проверки грамматики . Универсально полезных головок почти нет .
- Парадокс «плохих» билетов: Если взять «плохой» билет (те части, которые прунинг счел бесполезными) и заново обучить его, он покажет результат, почти идентичный «хорошему» билету .
Именно этот последний пункт дал название статье. Янник Кильхер подчеркивает: в BERT, в отличие от простых сетей, почти любая достаточно большая подсеть способна «выиграть в лотерею», если дать ей шанс на дообучение .
🧐 Спорные моменты и интерпретация результатов 43:13
Янник Кильхер выражает сомнение в том, что результаты статьи действительно опровергают оригинальную гипотезу лотерейного билета. Он приводит мнение Джонатана Франко (автора оригинальной гипотезы), который утверждает:
- Если ваша подсеть составляет 50% от оригинала, в ней чисто статистически спрятано еще несколько полноценных «выигрышных билетов» .
- Комбинаторное количество успешных подсетей огромно.
По мнению ведущего, авторы статьи используют слишком «грубый» прунинг . Удаляя целый модуль (MLP или головку), они могут убивать «плохие» веса вместе с «хорошими», и оставшихся хороших весов в «плохом» модуле всё равно хватает для успешного обучения . Это объясняет, почему «плохие» билеты в итоге всё равно справляются с задачами.
📊 Лингвистический анализ: что помнит BERT? 23:14
Статья также проливает свет на то, как BERT хранит знания. Исследователи обнаружили, что:
- При одновременном прунинге головок и MLP основная нагрузка перекладывается на последние слои сети .
- Разные задачи из набора GLUE используют разные наборы головок, но между ними есть пересечения, которые могут коррелировать с типом лингвистической информации, необходимой для решения .
- Интересно, что 86% головок внимания оказались «специализированными» — они нужны для одних задач, но не нужны для других .