标准回答
自一致性与不确定性
最轻量的一类方法不依赖外部知识:对同一 prompt 多次采样,看多条回答是否一致——事实性内容通常稳定,幻觉则在重复采样中互相矛盾(SelfCheckGPT 即此思路)。另一类看模型自身置信度,用生成 token 的 logprob 或熵衡量,置信度异常低的片段更可能是编造。
基于证据的事实核查
更可靠的做法是引入外部证据:先检索相关文档,再用 NLI(自然语言推理)判断答案是否被证据蕴含,或做引用比对,把每条主张对齐到可靠来源(grounding)。RAG 管线天然适合这种「先检索再核验」的检测。
模型裁判与外部校验
还可用 LLM-as-Judge 让另一个模型评估答案的事实性,或调用知识库、计算器、搜索等工具做硬校验。实践中常组合多种信号。难点在于开放域问题缺乏标准答案,以及流畅、自信但错误的输出最难被发现。
追问
追问 1:自一致性方法的局限是什么?
它检测的是「稳定性」而非「正确性」:如果模型对某个错误信念非常自信,多次采样会一致地给出同一个错误答案,自一致性就检测不出来。它对随机性导致的幻觉有效,对系统性偏差或训练数据里的错误无能为力,需配合外部证据。
追问 2:生产环境中如何降低而不仅是检测幻觉?
用 RAG 把回答 grounding 到可检索的可靠来源并要求带引用;在 prompt 里允许模型说「不知道」;对关键事实加工具/知识库校验;用约束解码或后处理过滤;并在线监控幻觉率指标,对高风险场景加人工复核。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。