幻觉（Hallucination）

模型在胡说八道

亦作、亦称：Hallucination

幻觉（Hallucination）是指大型语言模型生成的内容在语言上流畅、逻辑上自洽，却与事实、输入上下文或可验证证据相悖的现象。它是当前 LLM 在医疗、法律、金融等高风险场景部署时面临的核心可靠性挑战，也是 AI 可信度研究的重要课题。

概述

幻觉的本质是统计生成机制的副产品，而非模型「说谎」的主观行为。

生成机制根源：LLM 基于概率预测下一个词元，而非查询事实数据库，知识边界处最易出错。
高度迷惑性：错误内容往往以自信流畅的语气呈现，读者难以辨别，这与随机噪声截然不同。
高风险场景：医疗诊断、法律引用、金融分析等领域对幻觉容忍度极低，一旦出错代价严重。
无法完全消除：即便是顶尖商业模型，在专业长尾知识上仍会产生幻觉，这是概率生成范式的固有局限。

类型与变体

研究者通常将幻觉按「错误来源」分为两大类，实践中还存在第三类归因错误。

事实性幻觉（Factual Hallucination）：输出与外部世界事实不符，如捏造论文标题、伪造历史日期、虚构人物经历。
忠实性幻觉（Faithfulness Hallucination）：输出与输入上下文不符，模型无视用户提供的文档而使用内部记忆，在 RAG 场景中尤为突出。
归因幻觉（Attribution Hallucination）：模型将真实结论归于错误来源，如标注某观点出自一篇并不存在的论文。
复合幻觉：多种类型叠加，如生成错误内容同时附上虚假引用，危害性更大。

产生机制

幻觉可从训练与推理两个层面解释，两者相互叠加。

训练数据稀疏：对小众历史事件、最新科研进展等覆盖不足的领域，模型缺乏可靠内部表示，更易「补全」出错误内容。
训练目标的局限：最大化下一词预测概率不等于最大化事实准确率，训练数据中的错误会被模型内化。
自回归路径依赖：早期词元的偏差在后续生成中累积放大，一旦偏离事实轨道难以自我纠正。
采样参数影响：较高的 temperature 或 top-p 增加输出随机性，同时提升幻觉概率。
RLHF 的有限作用：基于人类反馈的强化学习可使模型更倾向于承认不确定性，但无法从根本上消除幻觉。

缓解手段

业界通常采用多层次组合策略，没有单一万能解法。

检索增强生成（RAG）：生成前检索相关文档注入上下文，降低模型对内部记忆的依赖，是最常见工程手段。
引用溯源（Citation Grounding）：要求模型为关键声明标注来源，配合后处理验证步骤核实引用真实性。
置信度校准（Uncertainty Calibration）：训练模型在不确定时显式表达「我不确定」，减少以假乱真的自信输出。
对抗测试与事实核查管道：上线前通过 Red Teaming 和自动化 Fact-Checking Pipeline 筛查幻觉输出。
提示词工程：要求模型「逐步推理」或「仅基于提供的文档回答」，对特定任务有一定帮助，但效果因模型而异。

与相邻概念的区别

幻觉容易与几个相近概念混淆，需要区分诊断思路。

幻觉 vs 偏见（Bias）：偏见是模型系统性地倾向某类答案（如性别刻板印象），幻觉是生成了不实内容；两者可共存但成因和缓解路径不同。
幻觉 vs 过拟合（Overfitting）：过拟合是对训练集的过度记忆，幻觉恰恰发生在模型记忆不足或泛化出错时，方向相反。
幻觉 vs 检索失败：在 RAG 体系中，检索失败是检索阶段未返回正确文档，幻觉是生成阶段的问题；两者诊断和修复策略不同。
幻觉 vs Jailbreak：Jailbreak 是通过对抗性提示绕过安全护栏，幻觉是模型正常推理时的事实错误，诱因不同。

局限与误区

对幻觉的若干常见误解会导致错误的缓解策略。

误区：模型越大幻觉越少：规模扩展提升常识准确率，但在专业领域或长尾知识上，大模型同样会自信地出错，有时「更流畅地说错」。
误区：RAG 是万能解药：若检索质量低下或与问题不匹配，模型仍会幻觉，错误来源从训练记忆变为错误的检索片段。
误区：幻觉等于说谎：LLM 无主观意图，幻觉是统计建模的副产品，这一区分对设计缓解方案有根本意义。
评测难题：事实性幻觉的自动检测仍是开放难题，现有基准（如 TruthfulQA）覆盖范围有限，难以全面衡量真实部署中的幻觉风险。

发展脉络

幻觉研究随 LLM 的规模扩展而从学术问题演变为工程实践难题。

2018 年：Lee et al. 在神经机器翻译（NMT）领域首次正式定义「幻觉」，描述模型生成与源文本完全脱节的流畅译文。
2020 年：Maynez et al. 将幻觉概念延伸至抽象摘要（Abstractive Summarization）领域，区分内在幻觉与外在幻觉两种子类型；GPT-3 发布令大规模 LLM 幻觉问题进入公众视野。
2021 年：TruthfulQA 基准发布，首次系统量化主流 LLM 在真实性问题上的表现差距。
2022 年：Ji et al. 发表综述「Survey of Hallucination in Natural Language Generation」（arXiv:2202.03629），系统梳理幻觉的分类、成因与缓解方法，成为该领域引用最广的参考文献；ChatGPT 大规模部署后，幻觉从学术议题变为工程实践难题。
2023–2024 年：RAG 架构成为缓解幻觉的主流工程方案；HELM、MMLU 等综合评测将事实准确率纳入标准维度。
2025 年至今：推理模型（如 o1、DeepSeek-R1）通过延长思维链在部分推理任务上降低幻觉率，但在事实性问题上仍未根本解决。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「模型在胡说八道」
「一本正经胡说」
「编造引用和事实」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「幻觉」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。