多模态融合：早期融合、晚期融合与交叉注意力有何区别？

Question 1

Accepted Answer

早期融合（Early / input-level fusion） 在输入或浅层就把各模态特征拼接到一起，再用一个共享网络联合编码。优点是模型能从底层学习细粒度的跨模态交互；缺点是需要先把模态在时间/空间上对齐，对缺失模态和噪声较敏感，维度也容易膨胀。 晚期融合（Late / decision-level fusion） 每个模态各用一套独立编码器处理到高层表示，最后再合并（特征拼接、加权求和、投票或各自出分再融合）。优点是模块解耦、易于复用单模态模型、某一模态缺失时仍能工作；缺点是融合发生得晚，难以捕捉模态间的细粒度关联。 交叉注意力（Cross-attention） 介于两者之间且更灵活：让一个模态生成 Query，去对另一个模态的 Key/Value 做注意力，从而按内容动态地从对方模态检索相关信息（如文本 token 去「看」相关图像区域）。它能做细粒度、可学习的对齐，是 Flamingo、LLaVA 一类多模态大模型的主流融合手段；代价是计算量随序列长度增长。

Question 2

什么场景更适合晚期融合？

Accepted Answer

当各模态信息相对独立、可分别决策，或需要应对某一模态缺失/质量波动时，晚期融合更稳健；也便于复用已有单模态强模型、独立迭代各分支。典型如多模态分类、检索召回后再融合排序等。

Question 3

交叉注意力相比直接拼接好在哪？

Accepted Answer

拼接是静态、固定的对齐，所有位置一视同仁。交叉注意力让模型按内容自适应地决定「关注对方模态的哪些部分」，能处理变长、未对齐的输入，实现细粒度对齐（如某个词对应图像某区域），表达力更强，更适合生成与推理类任务。

Question 4

CLIP 属于哪种融合？

Accepted Answer

CLIP 是典型的晚期/双塔对比式融合：图像和文本各用独立编码器得到嵌入，只在最后通过余弦相似度对齐，没有跨模态的交叉注意力。这让它检索高效、可预先编码，但缺乏细粒度跨模态交互，因此复杂图文推理常改用带交叉注意力的架构。

多模态融合：早期融合、晚期融合与交叉注意力有何区别？

核心要点

标准回答

常见误区

追问

延伸学习