Введение
BLEU (Bilingual Evaluation Understudy) – автоматическая метрика оценки качества машинного перевода. Предложена Kishore Papineni, Salim Roukos, Todd Ward и Wei-Jing Zhu в статье «BLEU: a method for automatic evaluation of machine translation» (ACL, 2002). Метрика стала де-факто стандартом в MT-исследованиях благодаря простоте вычисления, воспроизводимости и разумной корреляции с человеческими оценками качества.
BLEU измеряет, насколько хорошо машинный перевод (кандидат) совпадает с одним или несколькими эталонными (человеческими) переводами по точности n-грамм.
История и контекст
До BLEU оценка качества машинного перевода была исключительно ручной – дорогостоящей и трудозатратной. Papineni et al. (2002) показали, что их автоматическая метрика хорошо коррелирует с человеческими суждениями при ранжировании MT-систем. Это открыло возможность быстрого итерирования при разработке переводчиков и автоматической оптимизации через gradient descent (BLEU стал частью обучающих сигналов в seq2seq-моделях).
В последующие годы были выявлены ограничения BLEU – прежде всего отсутствие семантического понимания (синонимы считаются несовпадением). Это привело к появлению дополнительных метрик: METEOR, TER, BERTScore, CometScore. Тем не менее BLEU-4 остаётся базовым репортируемым результатом в MT-бенчмарках.
Как это работает
BLEU вычисляется по следующей формуле:
BLEU = BP · exp(Σₙ wₙ · log pₙ)
Где:
- pₙ – модифицированная точность n-грамм порядка n (n = 1, 2, 3, 4). Модифицированная – значит, каждая n-грамма кандидата может быть «зачтена» не более раза для каждого вхождения в эталон (клиппинг).
- wₙ = 1/N – равные веса для каждого порядка n-грамм (при N=4 каждый вес 0,25).
- BP – штраф за краткость (Brevity Penalty): BP = 1 если длина кандидата ≥ эталона, иначе exp(1 − |эталон|/|кандидат|).
BLEU-4 (n-граммы 1–4) является наиболее распространённым вариантом. Значения интерпретируются приблизительно: 0–10% – очень плохо; 10–30% – понятно, но с ошибками; 30–50% – хорошее качество; 50%+ – высокое качество, близкое к человеческому.
Где применяется
- Оценка MT-систем – сравнение статистических и нейронных переводчиков на стандартных бенчмарках (WMT, FLORES).
- Автоматическая оптимизация переводчиков – BLEU использовался как сигнал при обучении seq2seq-моделей через MERT.
- Суммаризация и генерация кода – как вспомогательная метрика наряду с ROUGE.
- Оценка LLM на задачах перевода – включён в многие LLM-бенчмарки.
- CAT-системы – автоматическая постредакция и оценка качества переводческой памяти.
Преимущества и ограничения
Преимущества: быстро вычисляется; не требует языковых ресурсов; воспроизводим; хорошо коррелирует с человеческими оценками на уровне корпуса при сравнении систем.
Ограничения: не понимает семантику – синонимы («большой» / «крупный») считаются ошибкой; ненадёжен на уровне отдельных предложений; нечувствителен к порядку слов; сильно зависит от количества и качества эталонных переводов; не учитывает беглость и грамматику напрямую.
Связь с другими понятиями
BLEU – precision-ориентированная метрика: знаменатель считается по кандидату. ROUGE – «обратный BLEU»: recall-ориентированная метрика, знаменатель по эталону, разработана для суммаризации. F1 комбинирует precision и recall, что BLEU в базовой форме не делает. Перплексия оценивает языковую компетентность модели, а BLEU – качество конкретных выходов. В системе Evaluation (МО) BLEU используется в связке с другими метриками для комплексной оценки генеративных моделей.