Classifier-Free Guidance（无分类器引导）

CFG 就是告诉模型『生成时要多听文字描述』——数值调得越高，图越符合提示词，但容易画得太死板。

亦作、亦称：无分类器引导 · CFG · classifier-free diffusion guidance · 无分类器扩散引导

无分类器引导（CFG）让扩散模型无需外部分类器即可精准响应文本或其他条件，是当代文生图系统的核心控制机制。通过一个「服从度」参数，用户可以在创意多样性与提示词忠实度之间灵活权衡。

概述

无分类器引导（Classifier-Free Guidance，CFG）是扩散模型条件生成的关键技术，解决了「如何在不借助外部分类器的情况下让生成结果服从给定条件」的问题。

核心目标：在样本质量（忠实度）与多样性之间提供可控权衡
提出时间：2022 年，作者 Jonathan Ho 与 Tim Salimans，来自 Google Research
论文地址：arXiv:2207.12598，被引超过 1800 次
地位：已成为 Stable Diffusion、DALL·E 2、Imagen 等主流文生图模型的标准训练与推理范式

工作原理

CFG 将有条件与无条件的噪声预测合并，通过引导系数 w 放大条件信号的影响。

训练阶段：以概率 p（常见取值 0.1–0.2）随机将条件 c 替换为空（∅），使模型同时学会有条件与无条件去噪
推理公式：ε_guided = ε_uncond + w × (ε_cond − ε_uncond)，其中 w 为 guidance scale
两次前向传播：每个去噪步骤需运行两次（有条件 + 无条件），再做线性外推
引导系数 w：w=1 等价于无引导；通常 5–15 之间效果较好；w 过大易出现过饱和、模式崩溃

与分类器引导的区别

CFG 是对 分类器引导（Classifier Guidance） 的改进，两者目标相同但实现路径不同。

分类器引导：需单独训练噪声鲁棒分类器，推理时将其梯度叠加到扩散模型的得分估计上，流程复杂
CFG：无需独立分类器，只用一个生成网络即可完成，部署更简单
质量对比：CFG 在 FID 和 IS 等指标上可达到与分类器引导相近甚至更优的效果
计算开销：CFG 每步多一次前向传播（2× cost），分类器引导则还需额外的分类器前向 + 梯度反传

应用场景

CFG 已广泛应用于多种条件生成任务，不局限于图像领域。

文生图：Stable Diffusion、DALL·E 2、Imagen、SDXL 均使用 CFG 控制文本对齐度
图像编辑：InstructPix2Pix 等借助 CFG 在保留原图结构的同时响应指令
文本生成：将 CFG 迁移至语言模型，引导输出更符合特定主题或风格
音频合成：AudioLDM、MusicLDM 等文生音频模型采用 CFG 提升音频与文本描述的一致性
视频生成：Sora、CogVideo 等视频扩散模型同样内置 CFG

局限与常见误区

CFG 并非万能，理解其局限有助于避免实践中的常见错误。

计算翻倍：每步需运行两次前向，推理速度约为无引导模式的 1/2
过高 w 的副作用：色彩过饱和、细节退化、多样性显著下降，甚至出现伪影
误区一：「w 越高质量越好」——实际上超过一定阈值后质量反而下降
误区二：「CFG 只适用于图像」——实际已成功迁移至语言、音频、视频等模态
误区三：「CFG 和 LoRA/ControlNet 冲突」——它们作用于不同层次，可以叠加使用

变体与改进

研究者针对经典 CFG 的不足提出了多种改进方案。

CFG++（2024）：引入流形约束，减少高 w 值下的误差累积，在更小的引导系数下达到同等效果
Perturbed-Attention Guidance（PAG）：无需无条件分支，通过扰动注意力图实现引导，降低计算开销
Negative Prompt：将「不想要的内容」作为负条件替代空条件，是 CFG 在实践中的常见扩展
动态 CFG：在不同去噪时间步使用不同的 w 值，平衡早期结构与晚期细节

发展脉络

CFG 诞生于扩散模型快速发展的阶段，推动了条件生成技术的普及。

2020 年：Ho 等提出 DDPM，奠定扩散模型基础
2021 年：Dhariwal & Nichol 提出分类器引导（Classifier Guidance），首次实现高质量条件生成
2022 年 7 月：Ho & Salimans 发布 CFG 论文（arXiv:2207.12598），无需独立分类器即可实现条件控制
2022 年下半年：Stable Diffusion、DALL·E 2、Imagen 等相继集成 CFG，推动文生图爆发
2023–2024 年：CFG 扩展至语言模型、音频、视频；CFG++ 等改进方案持续涌现
2025 年至今：CFG 成为生成式 AI 基础设施的标准模块，研究重心转向效率优化与无分类器架构创新

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「CFG 就是告诉模型『生成时要多听文字描述』——数值调得越高，图越符合提示词，但容易画得太死板。」
「Guidance Scale 就像一个『服从度旋钮』，拧到 1 相当于不听指挥，拧到 15 以上往往会过度饱和。」
「CFG 的巧妙在于同一个模型既跑有条件又跑无条件，两次结果做差就能得到方向，不用再单独训练分类器。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。