大模型为什么会产生幻觉？如何缓解？

Question 1

大模型为什么会产生幻觉？如何缓解？

Accepted Answer

为什么会幻觉： - 训练目标决定：LLM 是自回归语言模型，优化的是「在给定上下文下，下一个 token 的概率」，本质追求流畅与统计合理，并不直接优化事实正确性，因此会生成看似合理实则错误的内容。 - 知识盲区：训练数据有截止时间、覆盖不全或本身含错误；参数化记忆是有损压缩，长尾/最新事实容易缺失，模型倾向「补全」而非「承认不知道」。 - 解码随机性：较高 temperature 与采样会增加偏离；上下文过长、检索到无关材料也会诱发。 - 训练偏置：谄媚（sycophancy） 等倾向使模型迎合错误前提。 如何缓解： - RAG 检索增强：先检索权威资料再作答，把回答接地（grounding） 在外部知识上，是最有效的事实性手段（见 RAG 架构指南）。 - 引用与溯源：要求附出处、可追溯，便于核验并抑制编造。 - 解码控制：事实型任务调低 temperature、用更确定的解码。 - Prompt 约束：允许模型回答「不知道」、限定只依据所给材料作答（参考 Prompt 实践）。 - 生成后校验：用规则/检索/另一模型做事实核查与一致性检验，必要时拒答或人审。 衡量上常用幻觉率（hallucination rate）等指标做评测追踪。

Question 2

RAG 一定能消除幻觉吗？

Accepted Answer

不能。RAG 把回答接地在检索材料上，能大幅降低事实性幻觉，但若检索召回不准、文档本身有误、或模型未严格依据材料（仍掺入参数化知识），照样会幻觉。需配合「仅依据所给材料作答」「找不到就说没有」的约束、重排与引用核验，并评估检索质量本身。

Question 3

幻觉能被彻底消除吗？为什么？

Accepted Answer

理论上不能彻底消除。只要模型以概率续写、且知识有边界，就存在编造的可能；这是生成式范式的固有属性。工程目标是把幻觉率压到可接受范围并可控（接地+溯源+校验+在高风险场景拒答/转人工），而非追求零幻觉。

Question 4

如何量化评估模型的幻觉程度？

Accepted Answer

可用事实性基准（如 TruthfulQA、FActScore 类指标）、检索可溯源比例、人工或 LLM-as-judge 标注的幻觉率（hallucination rate）；对 RAG 系统还要评 groundedness/忠实度（回答是否被引用支持）与答案正确率，结合线上抽样人审持续监控。

大模型为什么会产生幻觉？如何缓解？

核心要点

标准回答

常见误区

追问

延伸学习