🧠 Лекция 7: Механизмы внимания и финальные проекты в NLP 0:05
Лекция курса CS224N от Stanford Online посвящена фундаментальным концепциям в области нейронных сетей для обработки естественного языка (NLP) — механизму внимания (attention) и организации финальных исследовательских проектов. Лектор подробно разбирает переход от классических нейронных архитектур к современным подходам, обеспечивающим эффективность современных больших языковых моделей.
🔍 Оценка машинного перевода 0:20
Традиционно оценка качества машинного перевода была сложной задачей, так как для одного предложения может существовать множество грамматически верных переводов. Лектор выделяет следующие методы:
- Человеческая оценка: Рассматривается как «золотой стандарт», поскольку автоматические методы часто страдают от предвзятости, однако она крайне медленна.
- BLEU (Bilingual Evaluation Understudy): Первый популярный автоматический метод, разработанный в IBM. Его суть заключается в подсчете совпадений n-грамм (обычно от 1 до 4) между машинным переводом и одним или несколькими эталонными переводами.
- Существует штраф за чрезмерную краткость перевода, чтобы предотвратить пропуск сложных фрагментов предложения.
- Лектор отмечает, что этот метод несовершенен: можно получить низкий BLEU-балл при хорошем переводе или высокий балл при наборе случайных правильных слов.
В эпоху до нейронных сетей доминировали статистические фразовые модели, однако с 2005 по 2014 годы прогресс в них практически остановился, несмотря на попытки внедрения синтаксического анализа. Ситуация кардинально изменилась с появлением нейронного машинного перевода (NMT) в 2014–2015 годах, который показал значительно более крутую «кривую обучения» и прогресса.
🎯 Механизм внимания (Attention) 12:09
Идея внимания стала революционной, позволив нейронным сетям динамически «заглядывать» в разные части исходного предложения при генерации каждого слова перевода, вместо того чтобы пытаться упаковать весь смысл предложения в один скрытый вектор.
Как работает внимание:
- На каждом шаге декодера вычисляется оценка (attention score) для всех скрытых состояний энкодера.
- Оценки пропускаются через softmax для получения весов, определяющих важность каждого слова исходника для текущего слова перевода.
- Вычисляется взвешенное среднее состояний энкодера, которое подается в декодер.
Лектор объясняет несколько типов вычисления оценок:
- Dot-product attention: Самый простой способ (скалярное произведение состояний энкодера и декодера), который, однако, работает не всегда эффективно.
- Multiplicative (bilinear) attention: Внедряет обучаемую матрицу $W$ между векторами, что позволяет модели лучше связывать семантически значимые части.
- Additive attention: Оригинальный метод Bahdanau et al., использующий небольшую нейронную сеть для расчета оценок.
По словам лектора, механизмы внимания решают проблему «бутылочного горлышка» (bottleneck), помогают бороться с затуханием градиентов и добавляют интерпретируемость: мы можем визуально отследить, на какие слова «смотрит» модель при генерации.
🚀 Организация финальных проектов 37:13
Финальный проект составляет 49% итоговой оценки. Лектор подчеркивает, что это должна быть работа, добавляющая ценность, а не просто запуск готового кода.
Ключевые рекомендации:
- Команды: Допускаются группы от 1 до 3 человек. Ожидается, что размер команды пропорционально отражается на объеме проделанной работы.
- Выбор темы: Можно выбрать «default project» (минимальная реализация BERT с расширением) или «custom project» (своя тема).
- Ресурсы: Из-за текущего дефицита GPU и менее щедрых облачных грантов, студентам рекомендуется проявлять изобретательность: использовать Google Colab (возможно, с подпиской Pro), Kaggle Notebooks, AWS SageMaker Studio Lab или API-доступ к моделям через Together AI.
Важные этапы и требования:
- Проектное предложение: Включает критический обзор научной статьи (2 страницы) и подробный план исследования.
- Этика: В этом году обязательно наличие параграфа об этических последствиях проекта.
- Baseline: Обязательно сравнение с простым, «наивным» базовым решением (например, усредненные word vectors), чтобы доказать, что ваш подход эффективен.
Лектор отмечает, что сегодня большинство проектов в CS224N используют предобученные модели (Hugging Face) и адаптируют их (например, через parameter-efficient fine-tuning), так как построение сложных архитектур с нуля требует вычислительных мощностей, доступных профессиональным лабораториям, но не студентам.