# Как и почему BERT произвел революцию в понимании языка нейросетями

Источник: https://www.youtube.com/watch?v=-9evrZnBorM
Канал: Yannic Kilcher
Опубликовано: 30.01.2019

---

В мире обработки естественного языка (NLP) произошел тектонический сдвиг с появлением BERT — модели, которая пересмотрела подходы к обучению машин пониманию человеческой речи. Исследователь Янник Килчер разбирает фундаментальную работу инженеров Google AI Language, объясняя, почему «двунаправленность» стала ключом к новому государству в индустрии ИИ.

## 🤖 Что такое BERT и почему вокруг него столько шума?
[[JUMP:00:15]]

BERT (Bidirectional Encoder Representations from Transformers) — это нейросетевая модель, разработанная Джейкобом Девлином и его коллегами из Google AI Language [0:00]. Главная особенность BERT заключается в том, что она приходит к пользователю уже «предварительно обученной» (pre-trained) на гигантском корпусе текстов.

По словам Янника Килчера, это самая обсуждаемая и «хайповая» модель современности [0:15]. Она способна принимать последовательности языковых токенов и адаптироваться практически к любой задаче NLP — от классификации предложений до ответов на вопросы — с минимальным дополнительным обучением.

## 🔄 Эволюция: от LSTM к трансформерам и двунаправленности
[[JUMP:01:14]]

Чтобы понять инновацию BERT, Килчер сравнивает её с предшественниками: классическими моделями OpenAI Transformer (GPT-1) и ELMo [1:14].

*   **Классические трансформеры (OpenAI):** Работают по принципу «слева направо» [5:47]. Это означает, что при интерпретации конкретного слова модель видит только контекст, идущий перед ним. Это ограничивает понимание смысла в сложных предложениях.
*   **ELMo:** Использует две независимые сети LSTM — одна читает текст слева направо, другая — справа налево [8:11]. Однако, по мнению Килчера, это решение «поверхностно», так как в конце векторы просто объединяются (конкатенируются), а сама модель остается «слепой» к общему контексту во время обучения [10:39].
*   **BERT:** Читает всё предложение целиком и сразу [11:34]. В каждом слое архитектуры внимание (attention) направлено одновременно и на левый, и на правый контекст.

## 🎭 Секрет обучения: маскировка и предсказание следующего предложения
[[JUMP:14:47]]

Поскольку классическое обучение (предсказание следующего слова) невозможно в двунаправленной модели (слово «видит» само себя в будущем), разработчики Google внедрили два новых метода обучения без учителя:

1.  **Masked Language Model (MLM):** В предложении случайным образом скрываются (маскируются) некоторые слова. Например: «Человек пошел в [MASK] за хлебом» [15:29]. Модель должна угадать слово, используя информацию с обеих сторон.
2.  **Next Sentence Prediction (NSP):** Модели подают две фразы и спрашивают, является ли вторая логическим продолжением первой [16:33]. В 50% случаев это реальная пара из текста, в 50% — случайный набор фраз (например, предложение про магазин и предложение про пингвинов) [17:26].

## 🧩 Токенизация и «трюк» с WordPieces
[[JUMP:20:44]]

Одной из технических проблем NLP является огромный объем словаря. BERT использует систему **WordPieces** — некий промежуточный вариант между целыми словами и отдельными символами [24:15].

*   Если слово встречается часто (например, «to»), оно остается целым.
*   Редкие или сложные слова разбиваются на осмысленные части (суб-токены). Например, слово «playing» может быть разбито на «play» и окончание «##ing» [27:32].
*   Это позволяет модели понимать смысл новых слов через их корни и суффиксы, а также избегать проблем с «незнакомыми словами» (Out-of-vocabulary), которые часто возникают в именах собственных, таких как PewDiePie [23:20].

## 🏆 Универсальность: 11 побед в тестах из 11
[[JUMP:28:47]]

Килчер подчеркивает, что BERT показал лучшие результаты (state-of-the-art) во всех 11 протестированных задачах [29:13]. Обученную модель можно «подстроить» (fine-tune) под конкретную задачу невероятно быстро:

*   **Классификация сообщений:** К BERT добавляется один простой слой логистической регрессии, который переводит скрытые векторы в метки классов (например, «эмоциональная окраска» или «противоречие») [31:01].
*   **SQuAD (ответы на вопросы):** Модель ищет конкретный фрагмент (span) в тексте Википедии, выделяя токены начала и конца ответа [33:40].
*   **NER (распознавание сущностей):** BERT определяет, является ли каждое слово именем, организацией или географическим объектом [36:37].

## 📊 Итоги и выводы: дело не только в ресурсах
[[JUMP:38:26]]

Хотя модель BERT Large огромна (24 слоя трансформеров) и обучалась на мощностях Google (TPU), исследование доказывает, что успех не только в «железе». Авторы провели абляционные исследования (Ablation Studies), отключая разные части системы [38:26].

Результаты показали:

*   Удаление задачи предсказания следующего предложения (NSP) снижает точность [38:53].
*   Переход от двунаправленности к обучению «только слева направо» ведет к серьезному обвалу метрик [39:08].

Янник Килчер заключает, что BERT — это мощнейший инструмент, который теперь доступен каждому для скачивания и адаптации под свои нужды, даже если у вас нет доступа к суперкомпьютерам Google [39:50].