CLIP

图文配对的模型

CLIP（Contrastive Language-Image Pre-training）是 OpenAI 于 2021 年提出的多模态预训练模型，通过对比学习将图像与文字映射到同一嵌入空间，使模型无需任务专用标注即可完成零样本图像分类，并成为文生图、图文检索等多模态应用的核心基础组件。

概述

CLIP 的核心突破是以海量互联网图文配对（约 4 亿对）替代人工标注，同时训练图像编码器与文本编码器。

预训练与推理两阶段逻辑清晰，是理解 CLIP 的核心。

批次对比矩阵：一个批次内 N 张图与 N 段文本构成 N×N 余弦相似度矩阵，对角线为正例，其余为负例。
对称损失：对行（图→文）和列（文→图）分别计算交叉熵后取平均，两个编码器联合优化。
零样本分类流程：将所有候选标签套入模板（如「a photo of a {class}」），编码为文本向量；目标图像编码后与各文本向量做点积，最高分对应预测类别。
Prompt 工程影响：措辞不同（如「dog」vs「a photo of a dog」）会显著影响排序，提示词设计对零样本性能至关重要。

原版 CLIP 之后出现了多个重要的开源与改进版本。

CLIP 嵌入已成为多模态 AI 工程的标准基础构件，被广泛嵌入下游系统。

文生图：Stable Diffusion 使用 CLIP 文本编码器将提示词转为条件向量，引导扩散过程；DALL·E 2 以 CLIP 图像嵌入作为图像先验。
图文跨模态检索：以文搜图或以图搜图直接比较两侧嵌入相似度，无需专门特征工程。
零样本分类：在 ImageNet 上无需任何标注样本即可达到与监督 ResNet-50 相当的精度（约 76%）。
内容审核与评估：CLIP score 作为图文一致性自动评估指标，用于衡量生成模型输出质量。
视觉语言模型（VLM）视觉塔：LLaVA、InternVL 等模型以 CLIP 视觉编码器作为图像特征提取器，再接语言模型实现多模态对话。

理解 CLIP 的边界有助于正确选型和使用。

CLIP vs Stable Diffusion/DALL·E：CLIP 只做编码匹配（表示学习），不生成图像；生成模型以 CLIP 编码结果为条件输入。
CLIP vs BERT/GPT：CLIP 的嵌入空间跨图文模态共享，支持跨模态相似度；BERT/GPT 仅处理文本，嵌入不可与图像直接比较。
CLIP vs VLM（LLaVA、GPT-4V）：CLIP 只编码、不生成，不具备对话或逐步推理能力；VLM 通常以 CLIP 视觉塔为基础，再接自回归语言模型实现交互。
CLIP vs 传统分类器（ResNet、ViT）：传统模型在固定类别集上监督训练，换任务需重新微调；CLIP 通过语言描述直接泛化到新类别。

CLIP 的零样本能力并非万能，存在明确的适用边界。

对比学习与多模态预训练的融合经历了数年演进。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。