FID

生成图像质量分

亦作、亦称：Fréchet Inception Distance

Fréchet Inception Distance（FID）是衡量图像生成模型质量的核心定量指标，通过比较生成图像与真实图像在深度特征空间中的分布距离来量化生成效果。FID 已成为 GAN、扩散模型等生成式视觉模型的通用评测基准，分数越低代表生成质量越高。

概述

FID 是生成式视觉领域最广泛采用的自动评测指标之一，兼顾生成图像的保真度与多样性。

核心思路：将真实图像与生成图像分别送入预训练的 Inception v3 网络，提取 pool3 中间层特征，再用 Fréchet 距离衡量两组特征分布的差异。
分数含义：FID 越低说明生成分布越接近真实分布，代表更高的保真度与多样性；完美生成的理论下界为 0。
适用模型：广泛用于 GAN（如 StyleGAN、BigGAN）、扩散模型（如 DDPM、Stable Diffusion）以及 VAE 的横向比较。
标准数据集：学术论文通常在 CIFAR-10、ImageNet、FFHQ 等数据集上报告 FID，方便跨论文对比。

FID 的计算分三个步骤完成。

步骤一——特征提取：用 Inception v3 的 pool3 层（2048 维）分别提取真实图像集与生成图像集的特征向量。
步骤二——分布拟合：对两组特征各自估计均值向量 μ 和协方差矩阵 Σ，将其拟合为多元高斯分布。
步骤三——计算距离：代入公式 FID = ‖μ_r − μ_g‖² + Tr(Σ_r + Σ_g − 2(Σ_r Σ_g)^½)，同时惩罚均值偏移（保真度）和协方差差异（多样性）。
数学本质：所用距离即 Fréchet 距离（也称 Wasserstein-2 距离），在两个多元高斯分布间有解析解，可高效计算。

理解 FID 的定位需要与其他评测指标对比。

FID vs Inception Score（IS）：IS 只看生成图像本身的类别置信度分布，不引入真实数据参照，无法检测模式坍塌；FID 同时考察生成分布与真实分布的对齐程度，更全面。
FID vs LPIPS：LPIPS 需要逐样本配对的参考图像，适合条件生成；FID 无需配对，适合无条件生成的整体评测。
FID vs CLIP Score：CLIP Score 侧重文本-图像对齐质量；FID 侧重生成分布与真实图像分布的整体一致性。
FID vs KID：Kernel Inception Distance（KID） 是无偏估计，对小样本更稳健；FID 在大样本下更稳定且计算成本更低。

FID 并非完美指标，以下几点是常见踩坑点。

样本数量敏感：样本过少（建议不低于 10,000 张）会导致协方差估计不稳定，造成数值偏差；不同论文若样本量不同，结果不可直接比较。
领域偏差：Inception v3 在 ImageNet 上预训练，对自然图像判别力强，但对医学图像、卫星图像等特殊领域可能失效。
正态性假设：FID 假设特征服从多元高斯分布，对于现代文本生成图像等分布更复杂的场景，该假设常常不成立。
实现不一致：PyTorch 与 TensorFlow 的图像预处理方式存在差异，需使用统一工具库（如 clean-fid）才能保证跨实验可比性。
不反映人类偏好：FID 与人类主观评分的相关性在某些场景（尤其是精细退化或非 ImageNet 内容）下较弱，不能单独决定模型好坏。

针对 FID 的不足，学界提出了多种替代或补充方案。

CMMD（CLIP-MMD）：2024 年 CVPR 论文《Rethinking FID》提出，用 CLIP 特征替代 Inception 特征，并以最大均值差异（MMD）替代 Fréchet 距离，对小样本更稳健、对复杂内容更敏感。
CLIP-FID：保留 FID 框架但将特征提取器换为预训练 CLIP 编码器，适合评测文本-图像生成任务。
Precision / Recall：将保真度（Precision）和多样性（Recall）解耦为独立指标，比单一 FID 数值更具诊断价值。
FVD（Fréchet Video Distance）：将 FID 思路迁移至视频生成评测，已成为视频生成领域的事实标准。

FID 的演进与生成式模型的发展密切交织。

2017：Martin Heusel 等人在论文《GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium》中提出 FID，初衷是为 TTUR 训练规则提供可靠评测指标，该论文发表于 NeurIPS 2017。
2018—2019：随着 BigGAN、StyleGAN 等高质量 GAN 的发布，FID 成为图像生成领域的事实标准评测工具。
2020：扩散模型 DDPM 论文用 FID 展示与 GAN 的对比，FID 延伸至扩散模型赛道。
2022：clean-fid 等标准化计算工具出现，致力于消除不同实现之间的数值差异；KID、Precision/Recall 等补充指标也受到更多关注。
2024：CVPR 2024 论文《Rethinking FID》正式指出 FID 的正态性假设缺陷与小样本问题，推动 CMMD 等新指标走向主流。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。