Термин · Глоссарий B2B-ПО

BLEU (BLEU)

Bilingual Evaluation Understudy – автоматическая метрика оценки качества машинного перевода, предложенная Papineni et al. (ACL, 2002). Вычисляет взвешенное геометрическое среднее точности совпадения n-грамм (1–4) кандидата с эталонными переводами, умноженное на штраф за краткость.

Буква «B» В категориях: 3 Платформ: 4+

Введение

BLEU (Bilingual Evaluation Understudy) – автоматическая метрика оценки качества машинного перевода. Предложена Kishore Papineni, Salim Roukos, Todd Ward и Wei-Jing Zhu в статье «BLEU: a method for automatic evaluation of machine translation» (ACL, 2002). Метрика стала де-факто стандартом в MT-исследованиях благодаря простоте вычисления, воспроизводимости и разумной корреляции с человеческими оценками качества.

BLEU измеряет, насколько хорошо машинный перевод (кандидат) совпадает с одним или несколькими эталонными (человеческими) переводами по точности n-грамм.

История и контекст

До BLEU оценка качества машинного перевода была исключительно ручной – дорогостоящей и трудозатратной. Papineni et al. (2002) показали, что их автоматическая метрика хорошо коррелирует с человеческими суждениями при ранжировании MT-систем. Это открыло возможность быстрого итерирования при разработке переводчиков и автоматической оптимизации через gradient descent (BLEU стал частью обучающих сигналов в seq2seq-моделях).

В последующие годы были выявлены ограничения BLEU – прежде всего отсутствие семантического понимания (синонимы считаются несовпадением). Это привело к появлению дополнительных метрик: METEOR, TER, BERTScore, CometScore. Тем не менее BLEU-4 остаётся базовым репортируемым результатом в MT-бенчмарках.

Как это работает

BLEU вычисляется по следующей формуле:

BLEU = BP · exp(Σₙ wₙ · log pₙ)

Где:

pₙ – модифицированная точность n-грамм порядка n (n = 1, 2, 3, 4). Модифицированная – значит, каждая n-грамма кандидата может быть «зачтена» не более раза для каждого вхождения в эталон (клиппинг).
wₙ = 1/N – равные веса для каждого порядка n-грамм (при N=4 каждый вес 0,25).
BP – штраф за краткость (Brevity Penalty): BP = 1 если длина кандидата ≥ эталона, иначе exp(1 − |эталон|/|кандидат|).

BLEU-4 (n-граммы 1–4) является наиболее распространённым вариантом. Значения интерпретируются приблизительно: 0–10% – очень плохо; 10–30% – понятно, но с ошибками; 30–50% – хорошее качество; 50%+ – высокое качество, близкое к человеческому.

Где применяется

Оценка MT-систем – сравнение статистических и нейронных переводчиков на стандартных бенчмарках (WMT, FLORES).
Автоматическая оптимизация переводчиков – BLEU использовался как сигнал при обучении seq2seq-моделей через MERT.
Суммаризация и генерация кода – как вспомогательная метрика наряду с ROUGE.
Оценка LLM на задачах перевода – включён в многие LLM-бенчмарки.
CAT-системы – автоматическая постредакция и оценка качества переводческой памяти.

Преимущества и ограничения

Преимущества: быстро вычисляется; не требует языковых ресурсов; воспроизводим; хорошо коррелирует с человеческими оценками на уровне корпуса при сравнении систем.

Ограничения: не понимает семантику – синонимы («большой» / «крупный») считаются ошибкой; ненадёжен на уровне отдельных предложений; нечувствителен к порядку слов; сильно зависит от количества и качества эталонных переводов; не учитывает беглость и грамматику напрямую.

Связь с другими понятиями

BLEU – precision-ориентированная метрика: знаменатель считается по кандидату. ROUGE – «обратный BLEU»: recall-ориентированная метрика, знаменатель по эталону, разработана для суммаризации. F1 комбинирует precision и recall, что BLEU в базовой форме не делает. Перплексия оценивает языковую компетентность модели, а BLEU – качество конкретных выходов. В системе Evaluation (МО) BLEU используется в связке с другими метриками для комплексной оценки генеративных моделей.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «BLEU».

Платформы класса «BLEU»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

PROMT Neural Translation Server Intranet Edition (for Linux)

Цена по запросу

★ 4.3

Подробнее →

PROMT Translation Factory

Цена по запросу

Подробнее →

PROMT Neural Translation Server Developer Edition (for Linux)

Цена по запросу

Подробнее →

PROMT Expert NMT (для ОС Windows)

Цена по запросу

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «BLEU».

Обработка естественного языка (NLP/NLU) Машинный перевод (MT) Файн-тюнинг и оценка моделей

Где применяется

Отрасли, в которых «BLEU» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Образование и наука

Медиа, искусство и развлечения

Частые вопросы про BLEU

Что такое BLEU-4?

BLEU с n-граммами порядков 1, 2, 3, 4 с равными весами. Наиболее распространённый вариант в MT-бенчмарках. BLEU-1 фиксирует адекватность слов, BLEU-4 дополнительно оценивает беглость фраз.

Почему BLEU не отлавливает синонимы?

BLEU работает на уровне точного совпадения n-грамм. «Большой» и «крупный» – разные токены. Для семантической оценки используются BERTScore, METEOR или CometScore.

Можно ли использовать BLEU для оценки суммаризации?

Можно, но не рекомендуется. BLEU оптимизирован под MT. Для суммаризации стандартом является ROUGE – recall-ориентированная метрика.

Что означает BLEU = 0?

Полное отсутствие совпадающих n-грамм между кандидатом и эталоном. BLEU = 1 (100%) – идеальное совпадение с одним из эталонных переводов.

Зачем нужен штраф за краткость (BP)?

Без него модель может выдавать очень короткие переводы с высокой точностью n-грамм. BP штрафует переводы короче эталона, вынуждая модель поддерживать нужную длину.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «BLEU»

PROMT Neural Translation Server Intranet Edition (for Linux)

PROMT Translation Factory

PROMT Neural Translation Server Developer Edition (for Linux)

PROMT Expert NMT (для ОС Windows)

Категории каталога

Где применяется

Частые вопросы про BLEU

Что такое BLEU-4?

Почему BLEU не отлавливает синонимы?

Можно ли использовать BLEU для оценки суммаризации?

Что означает BLEU = 0?

Зачем нужен штраф за краткость (BP)?

Контур Диадок: Логистика

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли