核心要点

  • BLIP 联合三个目标:图文对比(ITC)拉近匹配对、图文匹配(ITM)二分类细粒度判别、图生文(LM/caption)生成描述

  • 用 CapFilt 自举:先生成合成 caption 再用过滤器剔除噪声,清洗网络爬取的弱标注图文对

  • BLIP-2 引入 Q-Former 作为轻量桥梁,连接冻结的图像编码器与冻结的 LLM,只训练 Q-Former

  • Q-Former 用一组可学习 query 通过交叉注意力抽取图像特征,再喂给 LLM 做生成

标准回答

BLIP 的三任务联合预训练

BLIP 在大规模图文对上同时优化三个目标:

  • 图文对比(ITC):让匹配的图、文嵌入在共享空间中靠近,类似 CLIP
  • 图文匹配(ITM):用融合编码器做二分类,判断图文是否匹配,捕捉更细粒度的对齐
  • 图生文(caption/LM):以图像为条件自回归生成文本描述。

三者共享视觉与文本编码器,使模型兼具理解与生成能力。

CapFilt 数据自举

网络图文对噪声大。BLIP 训练一个 Captioner 生成合成描述、一个 Filter 过滤低质量对,从而扩充并净化训练数据。

BLIP-2 的效率革新

BLIP-2 冻结预训练好的图像编码器和 LLM,只训练中间的 Q-Former。Q-Former 用少量可学习 query 经交叉注意力从图像抽取关键特征,转成 LLM 能消费的软提示,大幅降低训练成本,并能复用强大的现成 LLM。

常见误区

⚠️ 常见踩坑

BLIP 不是只做对比学习(那是 CLIP);它额外有 ITM 与生成任务。BLIP-2 的核心是 Q-Former 桥接而非端到端微调整个 LLM。

追问

追问 1BLIP 与 CLIP 的关键区别是什么?

CLIP 只有图文对比一个目标,是纯双塔判别式模型,擅长检索/零样本分类但不能生成文本。BLIP 额外加了图文匹配(细粒度对齐)和图像生文(生成能力),是理解+生成统一架构,可直接做 caption、VQA。

追问 2Q-Former 为什么能降低训练成本?

因为图像编码器和 LLM 都冻结,可训练参数只有 Q-Former(一组 query + 轻量 Transformer)。它把高维图像特征压缩成固定数量的 query 向量作为 LLM 软提示,既避免重训大模型,又解决了视觉特征与语言空间的对齐问题。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。