Лекция Стэнфорда CS224N: основы механизма внимания и оценка перевода

Четвертая неделя весеннего семестра 2024 года в Стэнфорде ознаменовалась глубоким погружением в основы современных языковых моделей. Профессор Кристофер Маннинг представил студентам эволюцию систем машинного перевода и подробно разобрал математику механизма внимания (Attention). Кроме того, лектор очертил рамки выполнения финальных проектов курса CS224N в условиях глобального дефицита вычислительных мощностей.

📊 Оценка качества машинного перевода: метрика BLEU 0:05

Современные системы машинного перевода, построенные на базе многослойных LSTM-сетей, способны генерировать качественный текст по одному слову за шаг. Однако для оптимизации и быстрого тестирования таких систем инженерам необходим автоматический инструмент оценки. В научной литературе предложены сотни различных метрик, но золотым стандартом, по словам Маннинга, по-прежнему остается экспертная человеческая оценка. Человеческий аудит точен, но слишком медленен для использования в циклах обучения нейросетей.

Прорыв произошел в начале 2000-х годов, когда исследователи из IBM предложили метрику BLEU (Bilingual Evaluation Understudy). Основная идея BLEU заключается в сравнении машинного перевода с одним или несколькими эталонными переводами, выполненными людьми. Метрика подсчитывает частоту совпадения n-грамм (последовательностей из 1, 2, 3 и 4 слов). Чем выше процент пересечений, тем качественнее считается перевод. Первоначально предполагалось использовать несколько человеческих эталонов для покрытия возможных вариантов формулировок, но сегодня на практике часто ограничиваются одним референсом.

Профессор Маннинг подчеркивает, что оценка перевода — задача нетривиальная, поскольку у одного предложения может быть множество правильных интерпретаций. Вследствие этого BLEU остается довольно грубым инструментом. Система может выдать отличный перевод, но получить низкий балл BLEU просто из-за использования синонимов, отсутствующих в референсе. Напротив, бессмысленный набор слов со случайными совпадениями n-грамм может незаслуженно получить высокие баллы.

Для борьбы с читерством в формулу BLEU встроен штраф за излишне короткие переводы, который не позволяет модели переводить только самые простые слова, игнорируя сложный контекст. Теоретически шкала BLEU варьируется от 0 до 100, где оценки в районе 20–30 баллов означают понятный текст, а современные нейросети нередко пробивают планку в 50–60 баллов.

🔄 Исторический сдвиг парадигм: от правил к нейросетевому прорыву 8:39

Статистический перевод на базе фраз (Phrase-Based MT), зародившийся в недрах IBM в конце 1990-х годов, лег в основу первой версии сервиса Google Translate. К началу 2010-х годов эта технология уперлась в качественный тупик: ежегодный прирост точности за счет увеличения объемов n-граммных моделей стал минимальным. Профессор Маннинг вспоминает, что в период с 2005 по 2015 годы в академической среде доминировало убеждение, что качественный скачок возможен только через внедрение синтаксического анализа (Syntax-Based MT). Предполагалось, что если модель поймет грамматическую структуру и роли слов, она сможет корректно переводить между языками с принципиально разным порядком слов, например, с немецкого или китайского на английский.

Сам Кристофер Маннинг активно занимался синтаксическими методами в конце 2000-х годов, однако, по его признанию, этот подход не оправдал ожиданий, показав крайне слабый прогресс. Ситуация кардинально изменилась с появлением нейронного машинного перевода (NMT) в 2014 году. Первые системы NMT на тестовых испытаниях 2015 года еще уступали классическим статистическим методам, но уже к 2016 году они продемонстрировали экспоненциальный рост качества. График метрик устремился вверх, и нейросети навсегда вытеснили старые подходы из индустрии перевода.

🎯 Революция интуиции: появление механизма внимания 12:09

Большинство классических концепций глубокого обучения — полносвязные сети, RNN, LSTM и сверточные сети (CNN) — были изобретены еще в прошлом тысячелетии. Исследователям приходилось годами ждать накопления вычислительных мощностей и массивов данных. Механизм внимания (Attention) стал приятным исключением: его разработали относительно недавно, в 2014 году, непосредственно в процессе создания первых систем NMT.

Необходимость во внимании была продиктована архитектурным недостатком традиционных LSTM-моделей. В стандартной схеме кодировщик-декодировщик (Seq2Seq) вся смысловая нагрузка исходного предложения должна сжиматься в один финальный скрытый вектор. Профессор Маннинг считает такой подход нереалистичным: если для фразы из четырех слов это работает, то упаковать в один вектор предложение из 40 слов без потери деталей невозможно.

Более того, фиксированный вектор противоречит человеческой интуиции. Переводчик-человек не пытается удержать в голове весь текст целиком; в процессе работы он постоянно обращается взглядом к конкретным словам исходного предложения. Механизм внимания симулирует этот процесс, создавая прямые связи между декодировщиком и кодировщиком на каждом шаге генерации.

🧮 Математика внимания: от весов к выходу 15:10

В процессе генерации скрытое состояние декодировщика выступает в роли своего рода «ключа» (или запроса) для поиска информации в кодировщике. Нейросеть последовательно сравнивает текущее состояние декодировщика со скрытыми состояниями всех позиций исходного текста. Простейший математический способ сделать это — вычислить скалярное произведение (dot product) векторов скрытых состояний. Полученные оценки релевантности пропускаются через функцию Softmax, формируя распределение вероятностей (весов) над исходным предложением.

На основе этих весов рассчитывается взвешенное среднее значение всех состояний кодировщика. Полученный вектор внимания объединяется (конкатенируется) со скрытым состоянием декодировщика. Итоговый сдвоенный вектор умножается на матрицу параметров и отправляется на финальный Softmax для выбора слова с наивысшей вероятностью. Этот цикл повторяется для каждого нового слова.

Внедрение внимания привело к колоссальным результатам. В 2014 году команда Google создала мощную, но тяжелую систему перевода на базе 8-слойной LSTM-сети. Вскоре ученые из Монреальского университета (Дмитрий Баданау, Кёнхён Чо и Йошуа Бенжио) представили альтернативную архитектуру с механизмом внимания. Имея скромный университетский бюджет, они превзошли тяжеловесную модель Google.

Механизм внимания не только убрал проблему «узкого горлышка» данных, но и решил проблему затухания градиентов за счет коротких путей для прохождения сигналов. Бонусом инженеры получили интерпретируемость: визуализация весов внимания наглядно показывает, какие слова оригинала были связаны со словами перевода.

🔧 Разновидности внимания: от аддитивного к низкоранговому 25:04

Несмотря на простоту скалярного произведения, в чистом виде оно работает не идеально. Скрытое состояние LSTM перегружено побочной информацией: там хранятся грамматические правила, контекст будущих фраз и общая память. Для выделения только релевантных смыслов Кристофер Маннинг и Тханг Луонг в 2015 году предложили билинейное (или мультипликативное) внимание. Они вставили обучаемую матрицу весов между вектором запроса и вектором состояния кодировщика. Эта матрица берет на себя задачу сопоставления разных признаков, даже если кодировщик и декодировщик записывают смыслы в разные измерения вектора.

Однако у мультипликативного внимания есть проблема масштабирования. Если размерность скрытого состояния составляет, например, 1000 элементов, промежуточная матрица потребует миллион обучаемых параметров. Решением стало использование низкоранговых матриц, получаемых перемножением двух узких матричных профилей. В линейной алгебре это эквивалентно проецированию исходных векторов в пространство меньшей размерности с последующим вычислением простого скалярного произведения. По словам Маннинга, именно эта концепция низкоранговой проекции легла в основу современных Трансформеров.

Исторически первой версией, предложенной Баданау, было аддитивное внимание, задействовавшее небольшую нейросеть с функцией активации tanh. Исследования подтверждают, что при должной оптимизации гиперпараметров аддитивный метод может давать отличные результаты, но он работает значительно медленнее. В индустрии безоговорочно победило быстрое скалярное и низкоранговое внимание.

Примечательно, что в RNN-архитектурах механизму внимания не требуются позиционные эмбеддинги, поскольку рекуррентные слои вычисляются последовательно и сами по себе несут информацию о порядке слов.

👥 Финальные проекты: правила игры и командная работа 37:13

Вторая половина лекции была посвящена организационным вопросам финальных проектов, которые составляют 49% от общей оценки за курс. Профессор Маннинг напомнил о строгом соблюдении академической честности: студенты могут использовать чужой код и библиотеки из PyPI, но обязаны задокументировать все внешние источники и ссылки. Ключевым критерием оценки является личный вклад (value add). Просто скачать мощную нейросеть и прогнать ее на готовых данных — недостаточно для высокого балла; проект должен содержать глубокий аналитический или экспериментальный компонент.

Курс допускает работу в командах от одного до трех человек. Преподаватели поощряют групповую работу, поскольку она мотивирует и позволяет браться за масштабные задачи. Тем не менее требования к большим командам пропорционально выше: от тройки студентов ждут проведения абляционных исследований и сравнения с большим числом альтернативных моделей.

Допускается совмещение финального проекта с другими дисциплинами (например, с курсом по компьютерному зрению CS231N), но в этом случае нагрузка удваивается, а требования соответствуют виртуальной команде из четырех человек. Всем студентам рекомендуется активно консультироваться с ассистентами кафедры (TA) в часы их работы.

🛠️ Выбор траектории: базовый проект против кастомного 43:17

Студентам предложен выбор из двух путей. Базовый вариант (default project) включает в себя доработку минимальной реализации модели BERT, ее дообучение (fine-tuning) для анализа тональности текстов и последующее расширение системы с помощью современных подходов вроде LoRA или контрастивного обучения. Для базового проекта предусмотрена открытая таблица лидеров (leaderboard), где студенты могут соревноваться в качестве своих моделей. Как правило, этот понятный и структурированный путь выбирает около половины учащихся.

Альтернативный путь — кастомный исследовательский проект (custom project), предполагающий самостоятельный поиск задачи, данных и инструментов с нуля. К индивидуальным темам предъявляются два жестких требования:

Обязательное существенное использование естественного языка (NLP).
Обязательное глубокое вовлечение нейросетевых архитектур.

Чистая биоинформатика или генерация музыки без текстовой составляющей не принимаются, хотя мультимодальные проекты (текст + изображения) приветствуются.

Важной частью проектного предложения (proposal) является критический обзор ключевой научной статьи по выбранной теме объемом в две страницы. Маннинг предостерег от поверхностного пересказа аннотаций, призвав анализировать ограничения чужих методов и искать скрытые уловки авторов. Проектные предложения часто критикуются за отсутствие внятного описания набора данных и метрик оценки.

Кроме того, обязательным требованием стал параграф об этических рисках развертывания разрабатываемой системы в реальном мире. Любое исследование должно включать сильный базовый уровень (baseline) — например, сравнение сложной нейросети с простым усреднением эмбеддингов слов. Промежуточный прогресс будет оцениваться на этапе майлстоуна (milestone), где от студентов потребуют запуск первой работающей версии кода.

💡 Идеи для исследований и суровая реальность дефицита GPU 1:01:10

Спектр тем для кастомных проектов огромен: от генерации рифмованной поэзии с помощью LSTM до репликации сложных систем вроде дифференцируемых нейрокомпьютеров DeepMind или квантования весов. В 2024 году доминируют проекты, основанные на использовании предобученных больших языковых моделей (LLM). Студенты успешно адаптируют модели под узкие задачи с помощью эффективного дообучения (PEFT) или продвинутого промптинга.

В качестве примера Маннинг привел проект по дообучению Code Llama для генерации кода на языке Fortran на основе комментариев на естественном языке, а также мультимодальный каталог одежды, переводящий изображения в текстовые описания. Вдохновение для тем предлагается искать в репозиториях ACL Anthology, материалах конференций NeurIPS, ICLR и архиве препринтов arXiv.

Главным вызовом текущего учебного года Кристофер Маннинг назвал глобальный дефицит графических процессоров (GPU). Из-за ажиотажа вокруг LLM облачные провайдеры урезали бесплатные спонсорские программы. Годом ранее грант для курса CS224N от AWS стал крупнейшим в практике компании, но теперь студентам придется проявлять изобретательность. Google предоставляет каждому учащемуся купон на $50 в GCP, также рекомендуется использовать платформы Google Colab (с подпиской Pro за $10), AWS SageMaker Studio Lab и Kaggle Notebooks, которые зачастую предлагают лучшие бесплатные GPU, несмотря на скромный интерфейс.

Для работы с LLM стартап Together AI выделил курсу гранты по $50 на использование своих API. Профессор рекомендует оптимально расходовать эти средства: на моделях размером в 7 миллиардов параметров (7B) за $50 можно обработать колоссальные объемы токенов, тогда как запуск тяжелых моделей (например, 70B) исчерпает лимит мгновенно. Использование коммерческих закрытых систем вроде GPT-4 или Gemini Pro разрешено исключительно через программные API.

Интересным направлением Маннинг считает аналитические проекты, исследующие встроенные искажения (гендерные, расовые) в готовых моделях или их способность понимать аналогии. Простая констатация того, что GPT-4 хорошо справляется с задачей, исследованием не считается — студенты должны привнести собственную научную ценность.