核心要点

  • 能讲接地:用 RAG 注入可信上下文并强制「带引用/出处」作答,无依据则不编

  • 能讲解码控制:降低 temperature、约束输出结构,减少自由发挥

  • 能讲校验:事实核对、自一致(多次采样投票)、用 LLM/规则做后置验证

  • 能讲兜底与监控:低置信时拒答或转人工,并上线幻觉率评测与线上监控

标准回答

定位问题(独占一行)

幻觉指模型生成看似合理但与事实或上下文不符的内容。生产中无法靠单点根治,要在「输入—生成—输出—运营」全链路叠加多层防护。

输入侧:接地

引入 RAG 把权威知识检索进上下文,并在 prompt 中要求模型仅依据给定材料作答、附引用出处、材料不足时明确说「不知道」。检索质量是关键:优化分块、向量召回、重排与混合检索,召回不准则幻觉随之上升。

生成侧:约束

降低 temperature(事实类任务用 0–0.3)、用结构化/约束输出限制自由发挥,必要时缩小生成范围。

输出侧:校验

对关键结论做事实校对;用自一致(多次采样取多数)或独立的 LLM/规则校验器判断输出是否有据可依,不一致或无依据则拦截重生成。

运营侧:兜底与监控

低置信度场景拒答或转人工;线上持续采样评测幻觉率、引用准确率,建立回归测试集监控劣化。

常见误区

⚠️ 常见踩坑

别指望「在提示词里写一句别瞎编」就解决幻觉,也别以为上了 RAG 就万事大吉——检索召回错误同样会导致「有据可依的错误答案」,接地质量和后置校验缺一不可。

追问

追问 1RAG 检索到错误内容导致幻觉怎么办?

从检索质量入手:优化分块与 embedding、加重排序器提升 top-k 相关性、用混合检索(关键词+向量)补召回;并在生成后做引用一致性校验,输出与检索片段不匹配则拒绝或重检索。

追问 2如何量化评估幻觉是否真的下降?

建立带标准答案/可核查事实的评测集,统计事实准确率、引用正确率、拒答恰当率;可用 LLM-as-judge 或人工标注,并在每次迭代做回归对比,而非凭感觉判断。

追问 3自一致(self-consistency)为什么能降幻觉?

对同一问题多次采样生成,正确答案往往在多数样本中收敛一致,而幻觉常各不相同;取多数票或一致性高的结果可过滤掉偶发的编造,但会增加推理成本。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。