核心要点

  • 根因一:过度依赖 LLM 的语言先验,按常识「脑补」而非真看图(如默认餐桌有叉子)

  • 根因二:视觉与语言对齐弱,视觉特征注入 LLM 时信息损失或被忽视

  • 缓解:强化视觉接地、引入负样本/对比训练让模型学会说「图中没有」

  • 缓解:用 RLHF/偏好优化对齐事实性,减小语言偏置,解码时增大对视觉证据的依赖

标准回答

幻觉的本质

多模态大模型「看图说瞎话」指生成与图像不符的内容,如描述图中并不存在的物体。主要有两类根因:

  • 语言先验过强:底座 LLM 在海量文本上学到强先验,倾向按常识共现关系脑补(厨房就该有刀、马路就该有车),即使图中没有也照说。
  • 视觉对齐弱:视觉编码器与 LLM 之间的桥接(如投影层、Q-Former)信息有限,视觉特征被稀释或忽略,模型实际「没真正看清」。

缓解手段

  1. 更强视觉接地:提升视觉编码器分辨率/质量、强化跨模态注意力,让回答可追溯到具体图像区域。
  2. 负样本与对比训练:构造「图中不存在某物」的样本,训练模型敢于否定,降低物体幻觉。
  3. RLHF / 偏好优化:以事实一致性为奖励信号对齐模型,惩罚不忠于图像的输出。
  4. 减少语言偏置:平衡训练数据、解码时上调对视觉证据的权重(如对比解码),避免纯语言统计主导。
  5. 评测把关:用 POPE 等幻觉基准持续监测。

常见误区

⚠️ 常见踩坑

多模态幻觉不等于 LLM 文本幻觉,它特有「物体/属性/关系幻觉」且常由视觉对齐弱触发。单纯扩大 LLM 规模并不能消除,反而可能加重语言先验。

追问

追问 1什么是「物体幻觉」,如何度量?

物体幻觉指模型描述出图中不存在的物体。常用 POPE 基准:针对图像构造「图中有没有 X」的是非问题(含随机、热门、共现三种负样本采样),统计准确率/精确率/召回与 yes 偏置,量化模型是否过度回答「有」。CHAIR 指标则统计生成 caption 中幻觉物体比例。

追问 2对比解码(contrastive decoding)为何能减轻幻觉?

思路是对比「有图像」与「无图像/扰动图像」两种条件下的输出分布,放大图像真正带来的概率增益、抑制纯语言先验主导的 token。这样视觉证据支持的词被加强,仅靠常识脑补的词被削弱,在不重训模型的前提下降低物体幻觉。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。