标准回答
BLIP 的三任务联合预训练
BLIP 在大规模图文对上同时优化三个目标:
- 图文对比(ITC):让匹配的图、文嵌入在共享空间中靠近,类似 CLIP。
- 图文匹配(ITM):用融合编码器做二分类,判断图文是否匹配,捕捉更细粒度的对齐。
- 图生文(caption/LM):以图像为条件自回归生成文本描述。
三者共享视觉与文本编码器,使模型兼具理解与生成能力。
CapFilt 数据自举
网络图文对噪声大。BLIP 训练一个 Captioner 生成合成描述、一个 Filter 过滤低质量对,从而扩充并净化训练数据。
BLIP-2 的效率革新
BLIP-2 冻结预训练好的图像编码器和 LLM,只训练中间的 Q-Former。Q-Former 用少量可学习 query 经交叉注意力从图像抽取关键特征,转成 LLM 能消费的软提示,大幅降低训练成本,并能复用强大的现成 LLM。
追问
追问 1:BLIP 与 CLIP 的关键区别是什么?
CLIP 只有图文对比一个目标,是纯双塔判别式模型,擅长检索/零样本分类但不能生成文本。BLIP 额外加了图文匹配(细粒度对齐)和图像生文(生成能力),是理解+生成统一架构,可直接做 caption、VQA。
追问 2:Q-Former 为什么能降低训练成本?
因为图像编码器和 LLM 都冻结,可训练参数只有 Q-Former(一组 query + 轻量 Transformer)。它把高维图像特征压缩成固定数量的 query 向量作为 LLM 软提示,既避免重训大模型,又解决了视觉特征与语言空间的对齐问题。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。