Термин · Глоссарий B2B-ПО

BLEU (BLEU)

Bilingual Evaluation Understudy – автоматическая метрика оценки качества машинного перевода, предложенная Papineni et al. (ACL, 2002). Вычисляет взвешенное геометрическое среднее точности совпадения n-грамм (1–4) кандидата с эталонными переводами, умноженное на штраф за краткость.

Буква «B» В категориях: 3 Платформ: 4+

Введение

BLEU (Bilingual Evaluation Understudy) – автоматическая метрика оценки качества машинного перевода. Предложена Kishore Papineni, Salim Roukos, Todd Ward и Wei-Jing Zhu в статье «BLEU: a method for automatic evaluation of machine translation» (ACL, 2002). Метрика стала де-факто стандартом в MT-исследованиях благодаря простоте вычисления, воспроизводимости и разумной корреляции с человеческими оценками качества.

BLEU измеряет, насколько хорошо машинный перевод (кандидат) совпадает с одним или несколькими эталонными (человеческими) переводами по точности n-грамм.

История и контекст

До BLEU оценка качества машинного перевода была исключительно ручной – дорогостоящей и трудозатратной. Papineni et al. (2002) показали, что их автоматическая метрика хорошо коррелирует с человеческими суждениями при ранжировании MT-систем. Это открыло возможность быстрого итерирования при разработке переводчиков и автоматической оптимизации через gradient descent (BLEU стал частью обучающих сигналов в seq2seq-моделях).

В последующие годы были выявлены ограничения BLEU – прежде всего отсутствие семантического понимания (синонимы считаются несовпадением). Это привело к появлению дополнительных метрик: METEOR, TER, BERTScore, CometScore. Тем не менее BLEU-4 остаётся базовым репортируемым результатом в MT-бенчмарках.

Как это работает

BLEU вычисляется по следующей формуле:

BLEU = BP · exp(Σₙ wₙ · log pₙ)

Где:

  • pₙ – модифицированная точность n-грамм порядка n (n = 1, 2, 3, 4). Модифицированная – значит, каждая n-грамма кандидата может быть «зачтена» не более раза для каждого вхождения в эталон (клиппинг).
  • wₙ = 1/N – равные веса для каждого порядка n-грамм (при N=4 каждый вес 0,25).
  • BP – штраф за краткость (Brevity Penalty): BP = 1 если длина кандидата ≥ эталона, иначе exp(1 − |эталон|/|кандидат|).

BLEU-4 (n-граммы 1–4) является наиболее распространённым вариантом. Значения интерпретируются приблизительно: 0–10% – очень плохо; 10–30% – понятно, но с ошибками; 30–50% – хорошее качество; 50%+ – высокое качество, близкое к человеческому.

Где применяется

  • Оценка MT-систем – сравнение статистических и нейронных переводчиков на стандартных бенчмарках (WMT, FLORES).
  • Автоматическая оптимизация переводчиков – BLEU использовался как сигнал при обучении seq2seq-моделей через MERT.
  • Суммаризация и генерация кода – как вспомогательная метрика наряду с ROUGE.
  • Оценка LLM на задачах перевода – включён в многие LLM-бенчмарки.
  • CAT-системы – автоматическая постредакция и оценка качества переводческой памяти.

Преимущества и ограничения

Преимущества: быстро вычисляется; не требует языковых ресурсов; воспроизводим; хорошо коррелирует с человеческими оценками на уровне корпуса при сравнении систем.

Ограничения: не понимает семантику – синонимы («большой» / «крупный») считаются ошибкой; ненадёжен на уровне отдельных предложений; нечувствителен к порядку слов; сильно зависит от количества и качества эталонных переводов; не учитывает беглость и грамматику напрямую.

Связь с другими понятиями

BLEU – precision-ориентированная метрика: знаменатель считается по кандидату. ROUGE – «обратный BLEU»: recall-ориентированная метрика, знаменатель по эталону, разработана для суммаризации. F1 комбинирует precision и recall, что BLEU в базовой форме не делает. Перплексия оценивает языковую компетентность модели, а BLEU – качество конкретных выходов. В системе Evaluation (МО) BLEU используется в связке с другими метриками для комплексной оценки генеративных моделей.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «BLEU».

Платформы класса «BLEU»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «BLEU».

Где применяется

Отрасли, в которых «BLEU» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про BLEU

Что такое BLEU-4?

BLEU с n-граммами порядков 1, 2, 3, 4 с равными весами. Наиболее распространённый вариант в MT-бенчмарках. BLEU-1 фиксирует адекватность слов, BLEU-4 дополнительно оценивает беглость фраз.

Почему BLEU не отлавливает синонимы?

BLEU работает на уровне точного совпадения n-грамм. «Большой» и «крупный» – разные токены. Для семантической оценки используются BERTScore, METEOR или CometScore.

Можно ли использовать BLEU для оценки суммаризации?

Можно, но не рекомендуется. BLEU оптимизирован под MT. Для суммаризации стандартом является ROUGE – recall-ориентированная метрика.

Что означает BLEU = 0?

Полное отсутствие совпадающих n-грамм между кандидатом и эталоном. BLEU = 1 (100%) – идеальное совпадение с одним из эталонных переводов.

Зачем нужен штраф за краткость (BP)?

Без него модель может выдавать очень короткие переводы с высокой точностью n-грамм. BP штрафует переводы короче эталона, вынуждая модель поддерживать нужную длину.