标准回答
FID(Fréchet Inception Distance)
把真实图与生成图分别送入 Inception-v3 取中间层特征,假设两组特征服从多元高斯,计算两个高斯之间的 Fréchet(2-Wasserstein)距离。它同时反映保真度和多样性,对模式坍塌敏感,越低越好,是图像生成的主流主指标。需注意样本量较小时 FID 会被高估。
IS(Inception Score)
用预训练分类器对生成图打标签。单张图类别分布越尖锐说明越清晰可辨;所有图的边缘类别分布越均匀说明多样性越好。两者通过 KL 散度合成一个分数,越高越好。缺点:依赖分类器、不与真实数据对比,且只覆盖分类器认得的类别,已逐渐被 FID 取代。
CLIP Score
针对文生图,衡量「画的是不是提示要的内容」。用 CLIP 把图像和文本各自编码,取嵌入余弦相似度(常乘缩放系数)。它评的是图文对齐而非画质,因此要与 FID 搭配使用。
常见误区
⚠️ 常见踩坑
FID 越低越好、IS 越高越好,别记反;CLIP Score 高只说明切题,不代表画质高,不能替代 FID。
追问
追问 1:为什么 FID 比 IS 更常用?
IS 只看分类器对生成图的判断,不与真实数据分布对比,无法察觉「图很清晰但和真实数据差很远」,也对模式坍塌不敏感、受分类器类别集限制。FID 直接比较真实与生成的特征分布距离,能同时反映保真度与多样性,对坍塌敏感,因此成为主指标。
追问 2:评估文生图时只看 FID 够吗?
不够。FID 只衡量生成分布与真实分布的接近程度,不管图是否符合给定文本。一个模型可能画得很真实却没按提示画,FID 仍可能不错。所以要加 CLIP Score 衡量图文一致,必要时再加人工偏好评测。
追问 3:FID 计算中有哪些坑?
样本量太少会显著高估 FID(一般需上万张);预处理(缩放、插值方式、像素范围)必须与官方实现一致,否则不可比;不同 Inception 权重或框架实现也会带来偏差,跨论文比较时要统一管线。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。