如何评估生成图像的质量（FID、IS、CLIP Score）？

Question 1

Accepted Answer

FID（Fréchet Inception Distance） 把真实图与生成图分别送入 Inception-v3 取中间层特征，假设两组特征服从多元高斯，计算两个高斯之间的 Fréchet（2-Wasserstein）距离。它同时反映保真度和多样性，对模式坍塌敏感，越低越好，是图像生成的主流主指标。需注意样本量较小时 FID 会被高估。 IS（Inception Score） 用预训练分类器对生成图打标签。单张图类别分布越尖锐说明越清晰可辨；所有图的边缘类别分布越均匀说明多样性越好。两者通过 KL 散度合成一个分数，越高越好。缺点：依赖分类器、不与真实数据对比，且只覆盖分类器认得的类别，已逐渐被 FID 取代。 CLIP Score 针对文生图，衡量「画的是不是提示要的内容」。用 CLIP 把图像和文本各自编码，取嵌入余弦相似度（常乘缩放系数）。它评的是图文对齐而非画质，因此要与 FID 搭配使用。

Question 2

为什么 FID 比 IS 更常用？

Accepted Answer

IS 只看分类器对生成图的判断，不与真实数据分布对比，无法察觉「图很清晰但和真实数据差很远」，也对模式坍塌不敏感、受分类器类别集限制。FID 直接比较真实与生成的特征分布距离，能同时反映保真度与多样性，对坍塌敏感，因此成为主指标。

Question 3

评估文生图时只看 FID 够吗？

Accepted Answer

不够。FID 只衡量生成分布与真实分布的接近程度，不管图是否符合给定文本。一个模型可能画得很真实却没按提示画，FID 仍可能不错。所以要加 CLIP Score 衡量图文一致，必要时再加人工偏好评测。

Question 4

FID 计算中有哪些坑？

Accepted Answer

样本量太少会显著高估 FID（一般需上万张）；预处理（缩放、插值方式、像素范围）必须与官方实现一致，否则不可比；不同 Inception 权重或框架实现也会带来偏差，跨论文比较时要统一管线。

如何评估生成图像的质量（FID、IS、CLIP Score）？

核心要点

标准回答

常见误区

追问

延伸学习