LLM 重复生成（Repetition）的成因与缓解方法？

Question 1

Accepted Answer

成因

自回归模型逐 token 生成，贪心或低温解码总挑概率最高的 token；一旦进入某个高概率片段，重复出现会进一步抬高其条件概率，形成正反馈循环。训练数据分布与最大似然目标也使模型对"安全的重复"有偏好。

缓解方法

惩罚类：repetition penalty 对历史已出现的 token logits 降权；frequency/presence penalty 分别按出现次数和是否出现过惩罚；no-repeat-ngram 强制禁止生成重复的 n-gram。
采样类：提高 temperature 平滑分布、用 top-p 截断采样引入随机性，打破确定性循环。
提示与结构约束：在 prompt 中要求不要重复、给定输出格式或长度上限，从目标层面减少冗余。

取舍

惩罚和温度过高会损害连贯性与事实性，需按任务调参；确定性任务可只加轻度 no-repeat-ngram。

Question 2

repetition penalty 与 no-repeat-ngram 有什么区别？

Accepted Answer

repetition penalty 是软约束，对已出现 token 的 logits 乘以惩罚系数降低其概率，仍可能再次出现。no-repeat-ngram 是硬约束，直接把会导致重复 n-gram 的候选概率置零，彻底禁止该 n-gram 复现。前者更柔和、后者更强硬，常配合使用。

Question 3

为什么贪心解码更容易重复？

Accepted Answer

贪心每步只取概率最高的 token，没有随机性，一旦模型对某片段赋予高概率就会被反复选中，且自回归正反馈不断强化，极易陷入循环。引入 top-p/温度采样能打破这种确定性，但需权衡稳定性。

核心要点