Bleu Score: Как измерить точность машинного перевода?

Оценка качества машинного перевода: Как работает Bleu Score 0:00

Одной из фундаментальных проблем машинного перевода является вариативность: для одного и того же предложения на исходном языке может существовать несколько вариантов перевода, каждый из которых будет грамматически верным и семантически точным. В отличие от задач классификации изображений, где существует единственный правильный ответ, в переводе невозможно полагаться на простую оценку точности (accuracy). Для автоматической оценки таких систем был разработан Bleu Score (Bilingual Evaluation Understudy).

Принцип «дублёра» и интуиция метода 1:36

Название Bleu расшифровывается как «билингвальная оценочная подмена» (Bilingual Evaluation Understudy). В театральной среде дублёр заменяет основного актёра, если тот не может выйти на сцену; аналогично, Bleu Score выступает «дублёром» для человеческих экспертов, позволяя автоматически оценивать качество перевода без привлечения людей к каждому анализу.

Основная интуиция метода заключается в том, что машинный перевод считается качественным, если он максимально близок к одному из эталонных (человеческих) переводов, предоставленных в тестовой выборке. Разработка этого метода принадлежит группе исследователей: Кишору Папинени (Kishore Papineni), Салиму Рукосу (Salim Roukos), Тодду Уорду (Todd Ward) и Вэй-Джин Чжу (Wei-Jing Zhu), чья научная работа стала крайне влиятельной в области обработки естественного языка.

Модифицированная точность: от слов к N-граммам 2:45

Простой подсчёт доли слов, совпадающих с эталоном, часто даёт ложноположительные результаты. Например, если система перевода генерирует фразу, состоящую только из слов, присутствующих в эталоне, но в бессмысленном порядке, базовая точность будет высокой. Чтобы избежать этого, используется модифицированная точность (modified precision):

Каждое слово в машинном переводе получает «кредит» (очки) только в том случае, если оно присутствует в эталоне.
Количество очков за слово ограничено максимальным числом его вхождений в любой из имеющихся эталонных переводов («clipping»).
Если в эталоне слово встречается один раз, система не получит за него два очка, даже если сгенерирует его в переводе дважды.

Для улучшения оценки используются не только отдельные слова (униграммы), но и последовательности слов — N-граммы:

Биграммы: пары слов, стоящих рядом.
Триграммы: последовательности из трёх слов.
Более длинные последовательности: позволяют лучше оценивать грамматическую связность и структуру предложения.

Расчёт итогового показателя и штрафы 12:05

Итоговый Bleu Score вычисляется как среднее значение модифицированных точностей для униграмм, биграмм, триграмм и тетраграмм (последовательностей из четырёх слов). Однако одной лишь точности недостаточно: существует риск «взвинчивания» оценки за счёт генерации очень коротких, но «безопасных» предложений, состоящих из слов, которые часто встречаются в эталонах.

Для борьбы с этим используется штраф за краткость (Brevity Penalty, BP):

Если машинный перевод оказывается короче эталонного, система получает штраф.
Если длина перевода превышает длину эталона, BP равен 1 (штрафа нет).

По мнению автора видео Эндрю Ына (Andrew Ng), появление Bleu Score стало революционным моментом для машинного перевода, так как предоставило разработчикам единую метрику для сравнения идей и ускорения прогресса. Сегодня этот подход применяется не только в лингвистических задачах, но и в других областях, например, для оценки систем автоматического создания подписей к изображениям.