多模态大模型为什么会「看图说瞎话」？如何缓解？

Question 1

Accepted Answer

幻觉的本质 多模态大模型「看图说瞎话」指生成与图像不符的内容，如描述图中并不存在的物体。主要有两类根因： - 语言先验过强：底座 LLM 在海量文本上学到强先验，倾向按常识共现关系脑补（厨房就该有刀、马路就该有车），即使图中没有也照说。 - 视觉对齐弱：视觉编码器与 LLM 之间的桥接（如投影层、Q-Former）信息有限，视觉特征被稀释或忽略，模型实际「没真正看清」。 缓解手段 1. 更强视觉接地：提升视觉编码器分辨率/质量、强化跨模态注意力，让回答可追溯到具体图像区域。 2. 负样本与对比训练：构造「图中不存在某物」的样本，训练模型敢于否定，降低物体幻觉。 3. RLHF / 偏好优化：以事实一致性为奖励信号对齐模型，惩罚不忠于图像的输出。 4. 减少语言偏置：平衡训练数据、解码时上调对视觉证据的权重（如对比解码），避免纯语言统计主导。 5. 评测把关：用 POPE 等幻觉基准持续监测。

Question 2

什么是「物体幻觉」，如何度量？

Accepted Answer

物体幻觉指模型描述出图中不存在的物体。常用 POPE 基准：针对图像构造「图中有没有 X」的是非问题（含随机、热门、共现三种负样本采样），统计准确率/精确率/召回与 yes 偏置，量化模型是否过度回答「有」。CHAIR 指标则统计生成 caption 中幻觉物体比例。

Question 3

对比解码（contrastive decoding）为何能减轻幻觉？

Accepted Answer

思路是对比「有图像」与「无图像/扰动图像」两种条件下的输出分布，放大图像真正带来的概率增益、抑制纯语言先验主导的 token。这样视觉证据支持的词被加强，仅靠常识脑补的词被削弱，在不重训模型的前提下降低物体幻觉。

多模态大模型为什么会「看图说瞎话」？如何缓解？

核心要点

标准回答

常见误区

追问

延伸学习