Стэнфорд CS224N: Эволюция языковых моделей от N-грамм до RNN

Stanford Online 23,9 тыс. 1 ч 18 мин 2 мин 04.03.2025
Главное

Погружение в нейросетевые языковые модели: от N-грамм до RNN 24:55

Современные языковые модели — это основа технологий NLP, способная предсказывать вероятностное распределение следующего слова в последовательности. В Стэнфордском университете в рамках курса Stanford CS224N «NLP with Deep Learning» подробно разбирают эволюцию этих систем: от классических статистических n-граммных моделей до рекуррентных нейронных сетей (RNN).

📉 Статистическая эпоха: N-граммные модели 28:44

С 1975 по 2012 год стандартом индустрии были n-граммные языковые модели. Их суть заключается в предсказании следующего слова на основе короткой последовательности предшествующих слов (контекста) фиксированной длины.

Несмотря на простоту и когерентность, генерируемый текст часто был лишен смысла, хотя грамматически выглядел корректно.

🧠 Рекуррентные нейронные сети (RNN) 50:48

Для решения проблемы ограниченного контекста и неэффективного использования параметров была предложена архитектура рекуррентных нейронных сетей. В отличие от n-грамм, RNN способны обрабатывать последовательности произвольной длины, используя скрытое состояние (hidden state) для хранения «памяти» о прочитанном тексте.

💡 Современный взгляд на обучение нейросетей 6:47

Лектор отмечает, что успех современных deep learning систем обусловлен не одной «магической» формулой, а совокупностью инженерных правок, которые оживили сферу после застоя 90-х годов.

  1. Регуляризация (Dropout): Метод случайного «выбрасывания» (обнуления) части нейронов во время обучения. Это заставляет сеть быть устойчивой и не полагаться на отдельные признаки, эффективно создавая ансамбль моделей.
  2. Векторизация: Отказ от циклов (for) в пользу операций с матрицами и тензорами — критический фактор скорости современных систем.
  3. Инициализация: Использование малых случайных чисел для весов матриц, чтобы избежать симметрии и «застревания» градиента в нуле.
  4. Оптимизаторы: Переход от простого стохастического градиентного спуска (SGD) к методам вроде Adam, которые автоматически подстраивают скорость обучения для каждого параметра.

🔮 Прогнозы и практика 11:15

В современной парадигме вера в «переобучение» (overfitting) как катастрофу ушла на второй план. При использовании огромных сетей с миллиардами параметров они могут идеально запомнить обучающую выборку, но при правильной регуляризации демонстрируют отличную способность к обобщению на новых данных.

RNN позволили создавать интересные генеративные проекты — от написания сценариев в стиле Гарри Поттера до генерации названий для красок (например, «Stoner blue» или «Turdly»), что доказывает эффективность нейросетевого подхода, несмотря на определенные ограничения в глубине «памяти» модели.

💬 Цитаты

«Мы больше не верим, что переобучение существует.»

Автор лекции 11:12

«Если вы пишете циклы for в Python для глубокого обучения, вы почти наверняка совершаете ошибку.»

Автор лекции 18:49
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
N-грамма
Последовательность из n слов, используемая для статистического предсказания следующего элемента.
Teacher forcing
Метод обучения RNN, при котором на каждом шаге модель получает истинное предыдущее значение из текста, а не собственное предсказание.
Dropout
Техника регуляризации, при которой часть случайных нейронов отключается во время обучения для предотвращения переобучения.
Softmax
Математическая функция, превращающая вектор чисел в вероятностное распределение (сумма равна 1).
📊 Цифры
🗓 Хронология
  1. 1950-е Зарождение идеи языковых моделей.
  2. 1980-е — 1990-е Популярность нейросетей с одним скрытым слоем и алгоритма обратного распространения ошибки.
  3. 2006 Возрождение интереса к глубокому обучению (deep learning).
  4. 2012 Примерный переход от доминирования n-граммных моделей к нейросетевым методам.
⚖️ Другая сторона
Искусственный интеллект Stanford CS224N RNN NLP Языковые модели backpropagation