BLEU 与 ROUGE 如何评估生成文本质量？

Question 1

Accepted Answer

BLEU（偏精确率，翻译） 衡量生成文本中的 n-gram 有多大比例命中参考译文，是一种精确率导向指标。它对 1~4 元 gram 精确率取几何平均，并乘以简短惩罚（Brevity Penalty）——当译文比参考短时降分，避免模型靠输出极短句子刷高精确率。常用于机器翻译。 ROUGE（偏召回，摘要） 衡量参考文本中的 n-gram 有多少被生成结果覆盖，是召回率导向指标。常见变体：ROUGE-N（n-gram 召回）、ROUGE-L（基于最长公共子序列 LCS）。常用于自动摘要，因为摘要关心「关键信息是否被涵盖」。 对比与局限 - BLEU 看「我说的对不对」，ROUGE 看「该说的说全没」 - 都基于字面重叠，对同义改写、语序变化不敏感，可能低估语义正确的输出 - 实践中常配合 METEOR、BERTScore 或人工评估互补

Question 2

BLEU 的简短惩罚（BP）为什么必要？

Accepted Answer

因为 BLEU 主体是 n-gram 精确率，模型只输出一两个很有把握的词就能拿到极高精确率却严重漏译。BP 在候选译文短于参考时按长度比例指数衰减总分，迫使输出长度接近参考，防止「短而精」地刷分。

Question 3

ROUGE-L 与 ROUGE-N 有何区别？

Accepted Answer

ROUGE-N 统计固定长度 n-gram 的重叠召回；ROUGE-L 基于最长公共子序列（LCS），不要求连续匹配，能容忍中间插入词、更关注词序层面的整体覆盖。摘要评估常同时报告 ROUGE-1/2/L。

BLEU 与 ROUGE 如何评估生成文本质量？

核心要点

标准回答

常见误区

追问

延伸学习