Термин · Глоссарий B2B-ПО

ROUGE (ROUGE)

Recall-Oriented Understudy for Gisting Evaluation – набор recall-ориентированных метрик оценки суммаризации и перевода, предложенных Chin-Yew Lin (2004). ROUGE-N измеряет долю n-грамм эталонного текста, воспроизведённых в сгенерированном резюме.

Буква «R» В категориях: 3 Платформ: 4+

Введение

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) – набор автоматических метрик для оценки качества систем суммаризации и машинного перевода, предложенных Chin-Yew Lin в 2004 году. В отличие от BLEU, который измеряет точность (precision) n-грамм кандидата относительно эталона, ROUGE измеряет полноту (recall): какая доля n-грамм эталонного текста воспроизведена в сгенерированном тексте.

Такой подход логичен для суммаризации: хорошее резюме должно охватить ключевую информацию из оригинала, не пропустив важных фактов. Именно recall, а не precision, является приоритетом.

История и контекст

Lin & Hovy (2003) показали, что методы, аналогичные BLEU, могут применяться для оценки суммаризации через n-граммное перекрытие. На основе этой работы Chin-Yew Lin формализовал и расширил набор метрик в статье «ROUGE: A Package for Automatic Evaluation of Summaries» (ACL 2004). ROUGE быстро стал стандартом в области автоматической суммаризации и сохраняет эту позицию по сей день – несмотря на появление семантических метрик вроде BERTScore.

Как это работает

Основные варианты ROUGE:

ROUGE-N (N=1, 2) – recall по N-граммам: (число совпадающих N-грамм) / (общее число N-грамм в эталоне). ROUGE-1 по унигр, ROUGE-2 по биграммам – наиболее распространённые.
ROUGE-L – основан на наибольшей общей подпоследовательности (LCS). Учитывает порядок слов, не требуя смежности. Вычисляется как F-мера LCS-precision и LCS-recall.
ROUGE-S – skip-bigram: совпадение пар слов с произвольным пропуском между ними. Устойчив к перестановке слов.

На практике часто репортируют F1-меру ROUGE, сочетающую recall и precision для более полной картины. ROUGE-1 F1 и ROUGE-2 F1 – стандартные числа в статьях по суммаризации.

ROUGE vs BLEU

BLEU: знаменатель по кандидату → precision (не допускаем лишнего). ROUGE: знаменатель по эталону → recall (охватываем всё важное). Для суммаризации важнее не пропустить – поэтому ROUGE.

Где применяется

Автоматическая суммаризация – оценка качества реферативных и извлекательных моделей на датасетах CNN/DailyMail, XSum.
Оценка LLM на задачах summarization – стандартный компонент LLM-бенчмарков.
Машинный перевод – дополнительная метрика наряду с BLEU.
Генерация вопросов и ответов – оценка покрытия ключевой информации.
Оценка документации и отчётов – автоматический контроль полноты сгенерированного резюме относительно исходного документа.

Преимущества и ограничения

Преимущества: быстро вычисляется; не требует языковых ресурсов; хорошо коррелирует с человеческими оценками качества суммаризации; ROUGE-L учитывает порядок слов.

Ограничения: не понимает семантику – синонимы не засчитываются; зависит от качества эталонного резюме; разные реализации (разные опции стемминга, порога) дают несравнимые числа; не подходит для задач, где допустимо много вариантов правильного ответа.

Связь с другими понятиями

ROUGE – recall-ориентированный аналог BLEU (precision). F1 используется для совмещения ROUGE-precision и ROUGE-recall в единую оценку. Recall как концепция лежит в основе ROUGE-N: метрика фактически вычисляет recall n-грамм. Перплексия оценивает модель в целом, а ROUGE – качество конкретного вывода. В системе Evaluation (МО) ROUGE входит в стандартный набор метрик для генеративных задач.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «ROUGE».

Платформы класса «ROUGE»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

PROMT Neural Translation Server Intranet Edition (for Linux)

Цена по запросу

★ 4.3

Подробнее →

PROMT Translation Factory

Цена по запросу

Подробнее →

PROMT Neural Translation Server Developer Edition (for Linux)

Цена по запросу

Подробнее →

PROMT Expert NMT (для ОС Windows)

Цена по запросу

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «ROUGE».

Обработка естественного языка (NLP/NLU) Машинный перевод (MT) Файн-тюнинг и оценка моделей

Где применяется

Отрасли, в которых «ROUGE» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Образование и наука

Медиа, искусство и развлечения

Частые вопросы про ROUGE

Чем ROUGE-1 отличается от ROUGE-2?

ROUGE-1 считает совпадение отдельных слов (унигр). ROUGE-2 – пар соседних слов (биграмм). ROUGE-2 лучше отражает связность текста и труднее «обмануть» случайным набором слов.

Почему ROUGE измеряет recall, а не precision?

Для суммаризации важно охватить ключевую информацию из оригинала. Recall измеряет, какая доля эталонного текста воспроизведена в резюме – именно это приоритет для суммаризации.

Что такое ROUGE-L?

Метрика на основе наибольшей общей подпоследовательности (LCS). Учитывает порядок слов и не требует их смежности. Хорошо отражает структурное сходство текстов.

Можно ли использовать ROUGE для оценки LLM-ответов?

Да, как дополнительный сигнал. Но ROUGE не понимает семантику: хороший ответ-перефразировка получит низкий ROUGE. Дополняйте BERTScore или LLM-as-judge.

Какой ROUGE-2 считается хорошим для суммаризации?

На CNN/DailyMail современные модели достигают ROUGE-2 около 20–25%. Это число зависит от задачи и эталонных резюме – абсолютные значения нельзя переносить между датасетами.

Введение

История и контекст

Как это работает

ROUGE vs BLEU

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «ROUGE»

PROMT Neural Translation Server Intranet Edition (for Linux)

PROMT Translation Factory

PROMT Neural Translation Server Developer Edition (for Linux)

PROMT Expert NMT (для ОС Windows)

Категории каталога

Где применяется

Частые вопросы про ROUGE

Чем ROUGE-1 отличается от ROUGE-2?

Почему ROUGE измеряет recall, а не precision?

Что такое ROUGE-L?

Можно ли использовать ROUGE для оценки LLM-ответов?

Какой ROUGE-2 считается хорошим для суммаризации?

Контур Маркировка

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли