生产环境中如何系统性降低 LLM 幻觉？

Question 1

Accepted Answer

定位问题（独占一行） 幻觉指模型生成看似合理但与事实或上下文不符的内容。生产中无法靠单点根治，要在「输入—生成—输出—运营」全链路叠加多层防护。 输入侧：接地 引入 RAG 把权威知识检索进上下文，并在 prompt 中要求模型仅依据给定材料作答、附引用出处、材料不足时明确说「不知道」。检索质量是关键：优化分块、向量召回、重排与混合检索，召回不准则幻觉随之上升。 生成侧：约束 降低 temperature（事实类任务用 0–0.3）、用结构化/约束输出限制自由发挥，必要时缩小生成范围。 输出侧：校验 对关键结论做事实校对；用自一致（多次采样取多数）或独立的 LLM/规则校验器判断输出是否有据可依，不一致或无依据则拦截重生成。 运营侧：兜底与监控 低置信度场景拒答或转人工；线上持续采样评测幻觉率、引用准确率，建立回归测试集监控劣化。

Question 2

RAG 检索到错误内容导致幻觉怎么办？

Accepted Answer

从检索质量入手：优化分块与 embedding、加重排序器提升 top-k 相关性、用混合检索（关键词+向量）补召回；并在生成后做引用一致性校验，输出与检索片段不匹配则拒绝或重检索。

Question 3

如何量化评估幻觉是否真的下降？

Accepted Answer

建立带标准答案/可核查事实的评测集，统计事实准确率、引用正确率、拒答恰当率；可用 LLM-as-judge 或人工标注，并在每次迭代做回归对比，而非凭感觉判断。

Question 4

自一致（self-consistency）为什么能降幻觉？

Accepted Answer

对同一问题多次采样生成，正确答案往往在多数样本中收敛一致，而幻觉常各不相同；取多数票或一致性高的结果可过滤掉偶发的编造，但会增加推理成本。

生产环境中如何系统性降低 LLM 幻觉？

核心要点

标准回答

常见误区

追问

延伸学习