Янник Кильхер: «В нейросети BERT почти любой фрагмент может стать выигрышным»

Yannic Kilcher 30,7 тыс. 53 мин 3 мин 22.05.2020
Главное

В новом видео Янник Кильхер (Yannic Kilcher) разбирает научную работу «When BERT Plays the Lottery, All Tickets Are Winning». Исследование проверяет знаменитую «гипотезу лотерейного билета» на архитектуре BERT и приходит к парадоксальному выводу: в этой нейросети практически невозможно найти по-настоящему «бесполезные» части, так как даже «проигрышные» модули после дообучения показывают отличные результаты.

🧠 Что такое гипотеза лотерейного билета? 3:24

Для понимания сути исследования Янник Кильхер объясняет классическую концепцию «лотерейных билетов» в машинном обучении. Обычно нейросети избыточны: после обучения их можно значительно сократить (прунинг), удалив ненужные связи без потери точности . Однако если просто создать маленькую сеть и попытаться обучить её с нуля, она часто не достигает тех же высот, что и большая.

Согласно гипотезе лотерейного билета:

🏗️ Особенности BERT: почему обычный прунинг здесь не работает 7:35

BERT — это не просто полносвязная сеть, а трансформер, состоящий из множества слоев, каждый из которых включает головки внимания (attention heads) и блоки многослойного перцептрона (MLP) . В отличие от классических исследований, авторы обсуждаемой статьи прунят не отдельные веса, а целые структурные модули .

Янник Кильхер отмечает важное качественное отличие:

При этом BERT — это предобученная модель (на задаче Masked Language Modeling). Это значит, что поиск «билетов» ведется не в случайном шуме, а в весах, уже содержащих лингвистические знания .

🎰 Эксперимент: все ли билеты выигрышные? 12:59

Авторы статьи проверили BERT на наборе задач GLUE . Они определили «важные» модули, используя градиент функции потерь: если при удалении модуля ошибка почти не меняется, значит, он не важен .

Ключевые открытия:

  1. Хорошие подсети существуют: Можно удалить значительную часть модели, сохранив 90% исходной точности .
  2. Задачи диктуют свои правила: Те головки внимания, которые критически важны для определения сентимента (настроения текста), могут оказаться бесполезными для проверки грамматики . Универсально полезных головок почти нет .
  3. Парадокс «плохих» билетов: Если взять «плохой» билет (те части, которые прунинг счел бесполезными) и заново обучить его, он покажет результат, почти идентичный «хорошему» билету .

Именно этот последний пункт дал название статье. Янник Кильхер подчеркивает: в BERT, в отличие от простых сетей, почти любая достаточно большая подсеть способна «выиграть в лотерею», если дать ей шанс на дообучение .

🧐 Спорные моменты и интерпретация результатов 43:13

Янник Кильхер выражает сомнение в том, что результаты статьи действительно опровергают оригинальную гипотезу лотерейного билета. Он приводит мнение Джонатана Франко (автора оригинальной гипотезы), который утверждает:

По мнению ведущего, авторы статьи используют слишком «грубый» прунинг . Удаляя целый модуль (MLP или головку), они могут убивать «плохие» веса вместе с «хорошими», и оставшихся хороших весов в «плохом» модуле всё равно хватает для успешного обучения . Это объясняет, почему «плохие» билеты в итоге всё равно справляются с задачами.

📊 Лингвистический анализ: что помнит BERT? 23:14

Статья также проливает свет на то, как BERT хранит знания. Исследователи обнаружили, что:

💬 Цитаты

«Если вы удалите выигрышные билеты, вы всё равно сможете обучить остальные части до относительно хорошей производительности.»

Янник Кильхер 00:38

«В трансформерах мы пруним целые модули, и это качественное отличие от удаления одиночных связей.»

Янник Кильхер 09:50
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Прунинг (Pruning)
Процесс удаления весов или целых модулей из нейросети для её ускорения и уменьшения размера.
Masked Language Modeling
Метод предобучения BERT, где модель должна угадать пропущенное слово в предложении.
Attention Head
Механизм в трансформерах, позволяющий модели фокусироваться на разных частях входных данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект BERT прунинг Yannic Kilcher трансформеры Machine Learning