Bleu Score: Как измерить точность машинного перевода?

DeepLearning.AI 120 тыс. 16 мин 2 мин 05.02.2018
Главное

Оценка качества машинного перевода: Как работает Bleu Score 0:00

Одной из фундаментальных проблем машинного перевода является вариативность: для одного и того же предложения на исходном языке может существовать несколько вариантов перевода, каждый из которых будет грамматически верным и семантически точным. В отличие от задач классификации изображений, где существует единственный правильный ответ, в переводе невозможно полагаться на простую оценку точности (accuracy). Для автоматической оценки таких систем был разработан Bleu Score (Bilingual Evaluation Understudy).

Принцип «дублёра» и интуиция метода 1:36

Название Bleu расшифровывается как «билингвальная оценочная подмена» (Bilingual Evaluation Understudy). В театральной среде дублёр заменяет основного актёра, если тот не может выйти на сцену; аналогично, Bleu Score выступает «дублёром» для человеческих экспертов, позволяя автоматически оценивать качество перевода без привлечения людей к каждому анализу.

Основная интуиция метода заключается в том, что машинный перевод считается качественным, если он максимально близок к одному из эталонных (человеческих) переводов, предоставленных в тестовой выборке. Разработка этого метода принадлежит группе исследователей: Кишору Папинени (Kishore Papineni), Салиму Рукосу (Salim Roukos), Тодду Уорду (Todd Ward) и Вэй-Джин Чжу (Wei-Jing Zhu), чья научная работа стала крайне влиятельной в области обработки естественного языка.

Модифицированная точность: от слов к N-граммам 2:45

Простой подсчёт доли слов, совпадающих с эталоном, часто даёт ложноположительные результаты. Например, если система перевода генерирует фразу, состоящую только из слов, присутствующих в эталоне, но в бессмысленном порядке, базовая точность будет высокой. Чтобы избежать этого, используется модифицированная точность (modified precision):

Для улучшения оценки используются не только отдельные слова (униграммы), но и последовательности слов — N-граммы:

  1. Биграммы: пары слов, стоящих рядом.
  2. Триграммы: последовательности из трёх слов.
  3. Более длинные последовательности: позволяют лучше оценивать грамматическую связность и структуру предложения.

Расчёт итогового показателя и штрафы 12:05

Итоговый Bleu Score вычисляется как среднее значение модифицированных точностей для униграмм, биграмм, триграмм и тетраграмм (последовательностей из четырёх слов). Однако одной лишь точности недостаточно: существует риск «взвинчивания» оценки за счёт генерации очень коротких, но «безопасных» предложений, состоящих из слов, которые часто встречаются в эталонах.

Для борьбы с этим используется штраф за краткость (Brevity Penalty, BP):

По мнению автора видео Эндрю Ына (Andrew Ng), появление Bleu Score стало революционным моментом для машинного перевода, так как предоставило разработчикам единую метрику для сравнения идей и ускорения прогресса. Сегодня этот подход применяется не только в лингвистических задачах, но и в других областях, например, для оценки систем автоматического создания подписей к изображениям.

💬 Цитаты

«Bleu Score выступает «дублёром» для человеческих экспертов, позволяя автоматически оценивать качество перевода.»

«Bleu Score стал революционным, так как предоставил разработчикам единую метрику для сравнения идей и ускорения прогресса.»

👥 Спикер
📖 Термины
Bleu Score
Метрика для автоматической оценки качества машинного перевода текста путём сравнения с эталонными переводами.
Униграмма
Отдельное слово в последовательности.
N-грамма
Последовательность из N элементов (слов) текста.
Modified Precision
Метод расчёта точности, где количество совпадений слов ограничивается их максимальным числом в эталонах.
Brevity Penalty (BP)
Штрафной коэффициент, применяемый к коротким переводам, чтобы предотвратить их неоправданно высокую оценку.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Bleu Score Andrew Ng машинный перевод DeepLearning.AI