BLIP 等图文预训练模型是如何工作的？

Question 1

Accepted Answer

BLIP 的三任务联合预训练 BLIP 在大规模图文对上同时优化三个目标： - 图文对比（ITC）：让匹配的图、文嵌入在共享空间中靠近，类似 CLIP。 - 图文匹配（ITM）：用融合编码器做二分类，判断图文是否匹配，捕捉更细粒度的对齐。 - 图生文（caption/LM）：以图像为条件自回归生成文本描述。 三者共享视觉与文本编码器，使模型兼具理解与生成能力。 CapFilt 数据自举 网络图文对噪声大。BLIP 训练一个 Captioner 生成合成描述、一个 Filter 过滤低质量对，从而扩充并净化训练数据。 BLIP-2 的效率革新 BLIP-2 冻结预训练好的图像编码器和 LLM，只训练中间的 Q-Former。Q-Former 用少量可学习 query 经交叉注意力从图像抽取关键特征，转成 LLM 能消费的软提示，大幅降低训练成本，并能复用强大的现成 LLM。

Question 2

BLIP 与 CLIP 的关键区别是什么？

Accepted Answer

CLIP 只有图文对比一个目标，是纯双塔判别式模型，擅长检索/零样本分类但不能生成文本。BLIP 额外加了图文匹配（细粒度对齐）和图像生文（生成能力），是理解+生成统一架构，可直接做 caption、VQA。

Question 3

Q-Former 为什么能降低训练成本？

Accepted Answer

因为图像编码器和 LLM 都冻结，可训练参数只有 Q-Former（一组 query + 轻量 Transformer）。它把高维图像特征压缩成固定数量的 query 向量作为 LLM 软提示，既避免重训大模型，又解决了视觉特征与语言空间的对齐问题。

BLIP 等图文预训练模型是如何工作的？

核心要点

标准回答

常见误区

追问

延伸学习