核心要点

  • 早期融合(input-level):在输入/浅层就把不同模态特征拼接,共享后续编码器,能学细粒度跨模态交互但要求对齐、对噪声敏感

  • 晚期融合(decision-level):各模态用独立编码器分别处理,到高层再合并(拼接/加权/投票),模块解耦、缺模态鲁棒,但丢失细粒度交互

  • 交叉注意力(cross-attention):一种模态作 Query,去注意另一模态作 Key/Value,动态、按需地对齐与融合信息

  • 选型权衡:交互细粒度 vs 解耦鲁棒性;交叉注意力是当前多模态大模型主流融合方式

标准回答

早期融合(Early / input-level fusion)

在输入或浅层就把各模态特征拼接到一起,再用一个共享网络联合编码。优点是模型能从底层学习细粒度的跨模态交互;缺点是需要先把模态在时间/空间上对齐,对缺失模态和噪声较敏感,维度也容易膨胀。

晚期融合(Late / decision-level fusion)

每个模态各用一套独立编码器处理到高层表示,最后再合并(特征拼接、加权求和、投票或各自出分再融合)。优点是模块解耦、易于复用单模态模型、某一模态缺失时仍能工作;缺点是融合发生得晚,难以捕捉模态间的细粒度关联。

交叉注意力(Cross-attention)

介于两者之间且更灵活:让一个模态生成 Query,去对另一个模态的 Key/Value 做注意力,从而按内容动态地从对方模态检索相关信息(如文本 token 去「看」相关图像区域)。它能做细粒度、可学习的对齐,是 Flamingo、LLaVA 一类多模态大模型的主流融合手段;代价是计算量随序列长度增长。

常见误区

⚠️ 常见踩坑

别把「早/晚」理解成时间先后——指的是在网络的浅层还是高层融合;也别认为交叉注意力只是拼接的变体,它是按内容动态对齐,与静态拼接本质不同。

追问

追问 1什么场景更适合晚期融合?

当各模态信息相对独立、可分别决策,或需要应对某一模态缺失/质量波动时,晚期融合更稳健;也便于复用已有单模态强模型、独立迭代各分支。典型如多模态分类、检索召回后再融合排序等。

追问 2交叉注意力相比直接拼接好在哪?

拼接是静态、固定的对齐,所有位置一视同仁。交叉注意力让模型按内容自适应地决定「关注对方模态的哪些部分」,能处理变长、未对齐的输入,实现细粒度对齐(如某个词对应图像某区域),表达力更强,更适合生成与推理类任务。

追问 3CLIP 属于哪种融合?

CLIP 是典型的晚期/双塔对比式融合:图像和文本各用独立编码器得到嵌入,只在最后通过余弦相似度对齐,没有跨模态的交叉注意力。这让它检索高效、可预先编码,但缺乏细粒度跨模态交互,因此复杂图文推理常改用带交叉注意力的架构。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。