标准回答
BLEU(偏精确率,翻译)
衡量生成文本中的 n-gram 有多大比例命中参考译文,是一种精确率导向指标。它对 1~4 元 gram 精确率取几何平均,并乘以简短惩罚(Brevity Penalty)——当译文比参考短时降分,避免模型靠输出极短句子刷高精确率。常用于机器翻译。
ROUGE(偏召回,摘要)
衡量参考文本中的 n-gram 有多少被生成结果覆盖,是召回率导向指标。常见变体:ROUGE-N(n-gram 召回)、ROUGE-L(基于最长公共子序列 LCS)。常用于自动摘要,因为摘要关心「关键信息是否被涵盖」。
对比与局限
- BLEU 看「我说的对不对」,ROUGE 看「该说的说全没」
- 都基于字面重叠,对同义改写、语序变化不敏感,可能低估语义正确的输出
- 实践中常配合 METEOR、BERTScore 或人工评估互补
常见误区
⚠️ 常见踩坑
把 BLEU 当召回、ROUGE 当精确率说反了;忘了 BLEU 的简短惩罚;以为高分就等于语义好——二者都是字面匹配,无法捕捉同义改写。
追问
追问 1:BLEU 的简短惩罚(BP)为什么必要?
因为 BLEU 主体是 n-gram 精确率,模型只输出一两个很有把握的词就能拿到极高精确率却严重漏译。BP 在候选译文短于参考时按长度比例指数衰减总分,迫使输出长度接近参考,防止「短而精」地刷分。
追问 2:ROUGE-L 与 ROUGE-N 有何区别?
ROUGE-N 统计固定长度 n-gram 的重叠召回;ROUGE-L 基于最长公共子序列(LCS),不要求连续匹配,能容忍中间插入词、更关注词序层面的整体覆盖。摘要评估常同时报告 ROUGE-1/2/L。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。