标准回答
早期融合(Early / input-level fusion)
在输入或浅层就把各模态特征拼接到一起,再用一个共享网络联合编码。优点是模型能从底层学习细粒度的跨模态交互;缺点是需要先把模态在时间/空间上对齐,对缺失模态和噪声较敏感,维度也容易膨胀。
晚期融合(Late / decision-level fusion)
每个模态各用一套独立编码器处理到高层表示,最后再合并(特征拼接、加权求和、投票或各自出分再融合)。优点是模块解耦、易于复用单模态模型、某一模态缺失时仍能工作;缺点是融合发生得晚,难以捕捉模态间的细粒度关联。
交叉注意力(Cross-attention)
介于两者之间且更灵活:让一个模态生成 Query,去对另一个模态的 Key/Value 做注意力,从而按内容动态地从对方模态检索相关信息(如文本 token 去「看」相关图像区域)。它能做细粒度、可学习的对齐,是 Flamingo、LLaVA 一类多模态大模型的主流融合手段;代价是计算量随序列长度增长。
常见误区
⚠️ 常见踩坑
别把「早/晚」理解成时间先后——指的是在网络的浅层还是高层融合;也别认为交叉注意力只是拼接的变体,它是按内容动态对齐,与静态拼接本质不同。
追问
追问 1:什么场景更适合晚期融合?
当各模态信息相对独立、可分别决策,或需要应对某一模态缺失/质量波动时,晚期融合更稳健;也便于复用已有单模态强模型、独立迭代各分支。典型如多模态分类、检索召回后再融合排序等。
追问 2:交叉注意力相比直接拼接好在哪?
拼接是静态、固定的对齐,所有位置一视同仁。交叉注意力让模型按内容自适应地决定「关注对方模态的哪些部分」,能处理变长、未对齐的输入,实现细粒度对齐(如某个词对应图像某区域),表达力更强,更适合生成与推理类任务。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。