标准回答
幻觉的本质
多模态大模型「看图说瞎话」指生成与图像不符的内容,如描述图中并不存在的物体。主要有两类根因:
- 语言先验过强:底座 LLM 在海量文本上学到强先验,倾向按常识共现关系脑补(厨房就该有刀、马路就该有车),即使图中没有也照说。
- 视觉对齐弱:视觉编码器与 LLM 之间的桥接(如投影层、Q-Former)信息有限,视觉特征被稀释或忽略,模型实际「没真正看清」。
缓解手段
- 更强视觉接地:提升视觉编码器分辨率/质量、强化跨模态注意力,让回答可追溯到具体图像区域。
- 负样本与对比训练:构造「图中不存在某物」的样本,训练模型敢于否定,降低物体幻觉。
- RLHF / 偏好优化:以事实一致性为奖励信号对齐模型,惩罚不忠于图像的输出。
- 减少语言偏置:平衡训练数据、解码时上调对视觉证据的权重(如对比解码),避免纯语言统计主导。
- 评测把关:用 POPE 等幻觉基准持续监测。
常见误区
⚠️ 常见踩坑
多模态幻觉不等于 LLM 文本幻觉,它特有「物体/属性/关系幻觉」且常由视觉对齐弱触发。单纯扩大 LLM 规模并不能消除,反而可能加重语言先验。
追问
追问 1:什么是「物体幻觉」,如何度量?
追问 2:对比解码(contrastive decoding)为何能减轻幻觉?
思路是对比「有图像」与「无图像/扰动图像」两种条件下的输出分布,放大图像真正带来的概率增益、抑制纯语言先验主导的 token。这样视觉证据支持的词被加强,仅靠常识脑补的词被削弱,在不重训模型的前提下降低物体幻觉。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。