Введение
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) – набор автоматических метрик для оценки качества систем суммаризации и машинного перевода, предложенных Chin-Yew Lin в 2004 году. В отличие от BLEU, который измеряет точность (precision) n-грамм кандидата относительно эталона, ROUGE измеряет полноту (recall): какая доля n-грамм эталонного текста воспроизведена в сгенерированном тексте.
Такой подход логичен для суммаризации: хорошее резюме должно охватить ключевую информацию из оригинала, не пропустив важных фактов. Именно recall, а не precision, является приоритетом.
История и контекст
Lin & Hovy (2003) показали, что методы, аналогичные BLEU, могут применяться для оценки суммаризации через n-граммное перекрытие. На основе этой работы Chin-Yew Lin формализовал и расширил набор метрик в статье «ROUGE: A Package for Automatic Evaluation of Summaries» (ACL 2004). ROUGE быстро стал стандартом в области автоматической суммаризации и сохраняет эту позицию по сей день – несмотря на появление семантических метрик вроде BERTScore.
Как это работает
Основные варианты ROUGE:
- ROUGE-N (N=1, 2) – recall по N-граммам: (число совпадающих N-грамм) / (общее число N-грамм в эталоне). ROUGE-1 по унигр, ROUGE-2 по биграммам – наиболее распространённые.
- ROUGE-L – основан на наибольшей общей подпоследовательности (LCS). Учитывает порядок слов, не требуя смежности. Вычисляется как F-мера LCS-precision и LCS-recall.
- ROUGE-S – skip-bigram: совпадение пар слов с произвольным пропуском между ними. Устойчив к перестановке слов.
На практике часто репортируют F1-меру ROUGE, сочетающую recall и precision для более полной картины. ROUGE-1 F1 и ROUGE-2 F1 – стандартные числа в статьях по суммаризации.
ROUGE vs BLEU
BLEU: знаменатель по кандидату → precision (не допускаем лишнего). ROUGE: знаменатель по эталону → recall (охватываем всё важное). Для суммаризации важнее не пропустить – поэтому ROUGE.
Где применяется
- Автоматическая суммаризация – оценка качества реферативных и извлекательных моделей на датасетах CNN/DailyMail, XSum.
- Оценка LLM на задачах summarization – стандартный компонент LLM-бенчмарков.
- Машинный перевод – дополнительная метрика наряду с BLEU.
- Генерация вопросов и ответов – оценка покрытия ключевой информации.
- Оценка документации и отчётов – автоматический контроль полноты сгенерированного резюме относительно исходного документа.
Преимущества и ограничения
Преимущества: быстро вычисляется; не требует языковых ресурсов; хорошо коррелирует с человеческими оценками качества суммаризации; ROUGE-L учитывает порядок слов.
Ограничения: не понимает семантику – синонимы не засчитываются; зависит от качества эталонного резюме; разные реализации (разные опции стемминга, порога) дают несравнимые числа; не подходит для задач, где допустимо много вариантов правильного ответа.
Связь с другими понятиями
ROUGE – recall-ориентированный аналог BLEU (precision). F1 используется для совмещения ROUGE-precision и ROUGE-recall в единую оценку. Recall как концепция лежит в основе ROUGE-N: метрика фактически вычисляет recall n-грамм. Перплексия оценивает модель в целом, а ROUGE – качество конкретного вывода. В системе Evaluation (МО) ROUGE входит в стандартный набор метрик для генеративных задач.