Термин · Глоссарий B2B-ПО

ROUGE (ROUGE)

Recall-Oriented Understudy for Gisting Evaluation – набор recall-ориентированных метрик оценки суммаризации и перевода, предложенных Chin-Yew Lin (2004). ROUGE-N измеряет долю n-грамм эталонного текста, воспроизведённых в сгенерированном резюме.

Буква «R» В категориях: 3 Платформ: 4+

Введение

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) – набор автоматических метрик для оценки качества систем суммаризации и машинного перевода, предложенных Chin-Yew Lin в 2004 году. В отличие от BLEU, который измеряет точность (precision) n-грамм кандидата относительно эталона, ROUGE измеряет полноту (recall): какая доля n-грамм эталонного текста воспроизведена в сгенерированном тексте.

Такой подход логичен для суммаризации: хорошее резюме должно охватить ключевую информацию из оригинала, не пропустив важных фактов. Именно recall, а не precision, является приоритетом.

История и контекст

Lin & Hovy (2003) показали, что методы, аналогичные BLEU, могут применяться для оценки суммаризации через n-граммное перекрытие. На основе этой работы Chin-Yew Lin формализовал и расширил набор метрик в статье «ROUGE: A Package for Automatic Evaluation of Summaries» (ACL 2004). ROUGE быстро стал стандартом в области автоматической суммаризации и сохраняет эту позицию по сей день – несмотря на появление семантических метрик вроде BERTScore.

Как это работает

Основные варианты ROUGE:

  • ROUGE-N (N=1, 2) – recall по N-граммам: (число совпадающих N-грамм) / (общее число N-грамм в эталоне). ROUGE-1 по унигр, ROUGE-2 по биграммам – наиболее распространённые.
  • ROUGE-L – основан на наибольшей общей подпоследовательности (LCS). Учитывает порядок слов, не требуя смежности. Вычисляется как F-мера LCS-precision и LCS-recall.
  • ROUGE-S – skip-bigram: совпадение пар слов с произвольным пропуском между ними. Устойчив к перестановке слов.

На практике часто репортируют F1-меру ROUGE, сочетающую recall и precision для более полной картины. ROUGE-1 F1 и ROUGE-2 F1 – стандартные числа в статьях по суммаризации.

ROUGE vs BLEU

BLEU: знаменатель по кандидату → precision (не допускаем лишнего). ROUGE: знаменатель по эталону → recall (охватываем всё важное). Для суммаризации важнее не пропустить – поэтому ROUGE.

Где применяется

  • Автоматическая суммаризация – оценка качества реферативных и извлекательных моделей на датасетах CNN/DailyMail, XSum.
  • Оценка LLM на задачах summarization – стандартный компонент LLM-бенчмарков.
  • Машинный перевод – дополнительная метрика наряду с BLEU.
  • Генерация вопросов и ответов – оценка покрытия ключевой информации.
  • Оценка документации и отчётов – автоматический контроль полноты сгенерированного резюме относительно исходного документа.

Преимущества и ограничения

Преимущества: быстро вычисляется; не требует языковых ресурсов; хорошо коррелирует с человеческими оценками качества суммаризации; ROUGE-L учитывает порядок слов.

Ограничения: не понимает семантику – синонимы не засчитываются; зависит от качества эталонного резюме; разные реализации (разные опции стемминга, порога) дают несравнимые числа; не подходит для задач, где допустимо много вариантов правильного ответа.

Связь с другими понятиями

ROUGE – recall-ориентированный аналог BLEU (precision). F1 используется для совмещения ROUGE-precision и ROUGE-recall в единую оценку. Recall как концепция лежит в основе ROUGE-N: метрика фактически вычисляет recall n-грамм. Перплексия оценивает модель в целом, а ROUGE – качество конкретного вывода. В системе Evaluation (МО) ROUGE входит в стандартный набор метрик для генеративных задач.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «ROUGE».

Платформы класса «ROUGE»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «ROUGE».

Где применяется

Отрасли, в которых «ROUGE» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про ROUGE

Чем ROUGE-1 отличается от ROUGE-2?

ROUGE-1 считает совпадение отдельных слов (унигр). ROUGE-2 – пар соседних слов (биграмм). ROUGE-2 лучше отражает связность текста и труднее «обмануть» случайным набором слов.

Почему ROUGE измеряет recall, а не precision?

Для суммаризации важно охватить ключевую информацию из оригинала. Recall измеряет, какая доля эталонного текста воспроизведена в резюме – именно это приоритет для суммаризации.

Что такое ROUGE-L?

Метрика на основе наибольшей общей подпоследовательности (LCS). Учитывает порядок слов и не требует их смежности. Хорошо отражает структурное сходство текстов.

Можно ли использовать ROUGE для оценки LLM-ответов?

Да, как дополнительный сигнал. Но ROUGE не понимает семантику: хороший ответ-перефразировка получит низкий ROUGE. Дополняйте BERTScore или LLM-as-judge.

Какой ROUGE-2 считается хорошим для суммаризации?

На CNN/DailyMail современные модели достигают ROUGE-2 около 20–25%. Это число зависит от задачи и эталонных резюме – абсолютные значения нельзя переносить между датасетами.