核心要点

  • 能讲自一致性:对同一问题多次采样,若多个回答彼此矛盾则疑似幻觉(如 SelfCheckGPT 思路)

  • 能讲不确定性信号:用生成 token 的 logprob/熵衡量置信度,低置信片段更可能是编造

  • 能讲证据核查:用检索到的证据做事实核查(NLI 蕴含判断、引用比对),即把答案与可靠来源对齐grounding

  • 能讲外部裁判:用 LLM-as-Judge 或外部知识库/工具校验事实,对开放域和流畅的错误尤其要小心

标准回答

自一致性与不确定性

最轻量的一类方法不依赖外部知识:对同一 prompt 多次采样,看多条回答是否一致——事实性内容通常稳定,幻觉则在重复采样中互相矛盾(SelfCheckGPT 即此思路)。另一类看模型自身置信度,用生成 token 的 logprob 或熵衡量,置信度异常低的片段更可能是编造。

基于证据的事实核查

更可靠的做法是引入外部证据:先检索相关文档,再用 NLI(自然语言推理)判断答案是否被证据蕴含,或做引用比对,把每条主张对齐到可靠来源(grounding)。RAG 管线天然适合这种「先检索再核验」的检测。

模型裁判与外部校验

还可用 LLM-as-Judge 让另一个模型评估答案的事实性,或调用知识库、计算器、搜索等工具做硬校验。实践中常组合多种信号。难点在于开放域问题缺乏标准答案,以及流畅、自信但错误的输出最难被发现。

常见误区

⚠️ 常见踩坑

别把高置信度当成正确——LLM 常对错误内容也给出很高 logprob;也别以为 LLM-as-Judge 一定可靠,裁判模型自身可能有偏见或同样幻觉,需配合检索证据交叉验证

追问

追问 1自一致性方法的局限是什么?

它检测的是「稳定性」而非「正确性」:如果模型对某个错误信念非常自信,多次采样会一致地给出同一个错误答案,自一致性就检测不出来。它对随机性导致的幻觉有效,对系统性偏差或训练数据里的错误无能为力,需配合外部证据。

追问 2生产环境中如何降低而不仅是检测幻觉?

用 RAG 把回答 grounding 到可检索的可靠来源并要求带引用;在 prompt 里允许模型说「不知道」;对关键事实加工具/知识库校验;用约束解码或后处理过滤;并在线监控幻觉率指标,对高风险场景加人工复核。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。