# Bleu Score: Как измерить точность машинного перевода?

Источник: https://www.youtube.com/watch?v=DejHQYAGb7Q
Канал: DeepLearning.AI
Опубликовано: 05.02.2018

---

## Оценка качества машинного перевода: Как работает Bleu Score
[[JUMP:00:00]]

Одной из фундаментальных проблем машинного перевода является вариативность: для одного и того же предложения на исходном языке может существовать несколько вариантов перевода, каждый из которых будет грамматически верным и семантически точным. В отличие от задач классификации изображений, где существует единственный правильный ответ, в переводе невозможно полагаться на простую оценку точности (accuracy). Для автоматической оценки таких систем был разработан Bleu Score (Bilingual Evaluation Understudy).

### Принцип «дублёра» и интуиция метода
[[JUMP:01:36]]

Название Bleu расшифровывается как «билингвальная оценочная подмена» (Bilingual Evaluation Understudy). В театральной среде дублёр заменяет основного актёра, если тот не может выйти на сцену; аналогично, Bleu Score выступает «дублёром» для человеческих экспертов, позволяя автоматически оценивать качество перевода без привлечения людей к каждому анализу.

Основная интуиция метода заключается в том, что машинный перевод считается качественным, если он максимально близок к одному из эталонных (человеческих) переводов, предоставленных в тестовой выборке. Разработка этого метода принадлежит группе исследователей: Кишору Папинени (Kishore Papineni), Салиму Рукосу (Salim Roukos), Тодду Уорду (Todd Ward) и Вэй-Джин Чжу (Wei-Jing Zhu), чья научная работа стала крайне влиятельной в области обработки естественного языка.

### Модифицированная точность: от слов к N-граммам
[[JUMP:02:45]]

Простой подсчёт доли слов, совпадающих с эталоном, часто даёт ложноположительные результаты. Например, если система перевода генерирует фразу, состоящую только из слов, присутствующих в эталоне, но в бессмысленном порядке, базовая точность будет высокой. Чтобы избежать этого, используется **модифицированная точность (modified precision)**:

* Каждое слово в машинном переводе получает «кредит» (очки) только в том случае, если оно присутствует в эталоне.
* Количество очков за слово ограничено максимальным числом его вхождений в любой из имеющихся эталонных переводов («clipping»).
* Если в эталоне слово встречается один раз, система не получит за него два очка, даже если сгенерирует его в переводе дважды.

Для улучшения оценки используются не только отдельные слова (униграммы), но и последовательности слов — N-граммы:

1.  **Биграммы:** пары слов, стоящих рядом.
2.  **Триграммы:** последовательности из трёх слов.
3.  **Более длинные последовательности:** позволяют лучше оценивать грамматическую связность и структуру предложения.

### Расчёт итогового показателя и штрафы
[[JUMP:12:05]]

Итоговый Bleu Score вычисляется как среднее значение модифицированных точностей для униграмм, биграмм, триграмм и тетраграмм (последовательностей из четырёх слов). Однако одной лишь точности недостаточно: существует риск «взвинчивания» оценки за счёт генерации очень коротких, но «безопасных» предложений, состоящих из слов, которые часто встречаются в эталонах.

Для борьбы с этим используется **штраф за краткость (Brevity Penalty, BP)**:

* Если машинный перевод оказывается короче эталонного, система получает штраф.
* Если длина перевода превышает длину эталона, BP равен 1 (штрафа нет).

По мнению автора видео Эндрю Ына (Andrew Ng), появление Bleu Score стало революционным моментом для машинного перевода, так как предоставило разработчикам единую метрику для сравнения идей и ускорения прогресса. Сегодня этот подход применяется не только в лингвистических задачах, но и в других областях, например, для оценки систем автоматического создания подписей к изображениям.