核心要点

  • FID:用 Inception 网络提特征,建模为高斯,算真实与生成两组分布的 Fréchet 距离,越低越好,是当前主流主指标

  • IS(Inception Score):用分类器输出度量单图清晰度(条件分布尖锐)与整体多样性(边缘分布均匀),越高越好,但只看分类不看与真实数据的对齐

  • CLIP Score:用 CLIP 算图像与文本提示的嵌入余弦相似度,衡量文生图的图文一致性,与质量正交

  • 实践中三者互补:FID 看保真+多样、CLIP Score 看是否切题,再辅以人工或偏好评测

标准回答

FID(Fréchet Inception Distance)

把真实图与生成图分别送入 Inception-v3 取中间层特征,假设两组特征服从多元高斯,计算两个高斯之间的 Fréchet(2-Wasserstein)距离。它同时反映保真度和多样性,对模式坍塌敏感,越低越好,是图像生成的主流主指标。需注意样本量较小时 FID 会被高估。

IS(Inception Score)

预训练分类器对生成图打标签。单张图类别分布越尖锐说明越清晰可辨;所有图的边缘类别分布越均匀说明多样性越好。两者通过 KL 散度合成一个分数,越高越好。缺点:依赖分类器、不与真实数据对比,且只覆盖分类器认得的类别,已逐渐被 FID 取代。

CLIP Score

针对文生图,衡量「画的是不是提示要的内容」。用 CLIP 把图像和文本各自编码,取嵌入余弦相似度(常乘缩放系数)。它评的是图文对齐而非画质,因此要与 FID 搭配使用。

常见误区

⚠️ 常见踩坑

FID 越低越好、IS 越高越好,别记反;CLIP Score 高只说明切题,不代表画质高,不能替代 FID。

追问

追问 1为什么 FID 比 IS 更常用?

IS 只看分类器对生成图的判断,不与真实数据分布对比,无法察觉「图很清晰但和真实数据差很远」,也对模式坍塌不敏感、受分类器类别集限制。FID 直接比较真实与生成的特征分布距离,能同时反映保真度与多样性,对坍塌敏感,因此成为主指标。

追问 2评估文生图时只看 FID 够吗?

不够。FID 只衡量生成分布与真实分布的接近程度,不管图是否符合给定文本。一个模型可能画得很真实却没按提示画,FID 仍可能不错。所以要加 CLIP Score 衡量图文一致,必要时再加人工偏好评测。

追问 3FID 计算中有哪些坑?

样本量太少会显著高估 FID(一般需上万张);预处理(缩放、插值方式、像素范围)必须与官方实现一致,否则不可比;不同 Inception 权重或框架实现也会带来偏差,跨论文比较时要统一管线。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。