如何检测 LLM 是否在「一本正经地胡说」（幻觉检测）？

Question 1

Accepted Answer

自一致性与不确定性 最轻量的一类方法不依赖外部知识：对同一 prompt 多次采样，看多条回答是否一致——事实性内容通常稳定，幻觉则在重复采样中互相矛盾（SelfCheckGPT 即此思路）。另一类看模型自身置信度，用生成 token 的 logprob 或熵衡量，置信度异常低的片段更可能是编造。 基于证据的事实核查 更可靠的做法是引入外部证据：先检索相关文档，再用 NLI（自然语言推理）判断答案是否被证据蕴含，或做引用比对，把每条主张对齐到可靠来源（grounding）。RAG 管线天然适合这种「先检索再核验」的检测。 模型裁判与外部校验 还可用 LLM-as-Judge 让另一个模型评估答案的事实性，或调用知识库、计算器、搜索等工具做硬校验。实践中常组合多种信号。难点在于开放域问题缺乏标准答案，以及流畅、自信但错误的输出最难被发现。

Question 2

自一致性方法的局限是什么？

Accepted Answer

它检测的是「稳定性」而非「正确性」：如果模型对某个错误信念非常自信，多次采样会一致地给出同一个错误答案，自一致性就检测不出来。它对随机性导致的幻觉有效，对系统性偏差或训练数据里的错误无能为力，需配合外部证据。

Question 3

生产环境中如何降低而不仅是检测幻觉？

Accepted Answer

用 RAG 把回答 grounding 到可检索的可靠来源并要求带引用；在 prompt 里允许模型说「不知道」；对关键事实加工具/知识库校验；用约束解码或后处理过滤；并在线监控幻觉率指标，对高风险场景加人工复核。

如何检测 LLM 是否在「一本正经地胡说」（幻觉检测）？

核心要点

标准回答

常见误区

追问

延伸学习