核心要点

  • BLEU 基于 n-gram 精确率:生成的 n-gram 有多少出现在参考译文中

  • BLEU 加简短惩罚(BP),防止只输出极短句子刷高精确率

  • ROUGE 基于召回:参考文本的 n-gram/最长公共子序列被生成覆盖了多少

  • 惯例:机器翻译用 BLEU,自动摘要用 ROUGE;二者都是字面匹配、语义不敏感

标准回答

BLEU(偏精确率,翻译)

衡量生成文本中的 n-gram 有多大比例命中参考译文,是一种精确率导向指标。它对 1~4 元 gram 精确率取几何平均,并乘以简短惩罚(Brevity Penalty)——当译文比参考短时降分,避免模型靠输出极短句子刷高精确率。常用于机器翻译。

ROUGE(偏召回,摘要)

衡量参考文本中的 n-gram 有多少被生成结果覆盖,是召回率导向指标。常见变体:ROUGE-N(n-gram 召回)、ROUGE-L(基于最长公共子序列 LCS)。常用于自动摘要,因为摘要关心「关键信息是否被涵盖」。

对比与局限

  • BLEU 看「我说的对不对」,ROUGE 看「该说的说全没」
  • 都基于字面重叠,对同义改写、语序变化不敏感,可能低估语义正确的输出
  • 实践中常配合 METEOR、BERTScore 或人工评估互补

常见误区

⚠️ 常见踩坑

把 BLEU 当召回、ROUGE 当精确率说反了;忘了 BLEU 的简短惩罚;以为高分就等于语义好——二者都是字面匹配,无法捕捉同义改写。

追问

追问 1BLEU 的简短惩罚(BP)为什么必要?

因为 BLEU 主体是 n-gram 精确率,模型只输出一两个很有把握的词就能拿到极高精确率却严重漏译。BP 在候选译文短于参考时按长度比例指数衰减总分,迫使输出长度接近参考,防止「短而精」地刷分。

追问 2ROUGE-L 与 ROUGE-N 有何区别?

ROUGE-N 统计固定长度 n-gram 的重叠召回;ROUGE-L 基于最长公共子序列(LCS),不要求连续匹配,能容忍中间插入词、更关注词序层面的整体覆盖。摘要评估常同时报告 ROUGE-1/2/L。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。