Classifier-Free Guidance(无分类器引导)
CFG 就是告诉模型『生成时要多听文字描述』——数值调得越高,图越符合提示词,但容易画得太死板。
亦作、亦称:无分类器引导 · CFG · classifier-free diffusion guidance · 无分类器扩散引导
无分类器引导(CFG)让扩散模型无需外部分类器即可精准响应文本或其他条件,是当代文生图系统的核心控制机制。通过一个「服从度」参数,用户可以在创意多样性与提示词忠实度之间灵活权衡。
概述
无分类器引导(Classifier-Free Guidance,CFG)是扩散模型条件生成的关键技术,解决了「如何在不借助外部分类器的情况下让生成结果服从给定条件」的问题。
- 核心目标:在样本质量(忠实度)与多样性之间提供可控权衡
- 提出时间:2022 年,作者 Jonathan Ho 与 Tim Salimans,来自 Google Research
- 论文地址:arXiv:2207.12598,被引超过 1800 次
- 地位:已成为 Stable Diffusion、DALL·E 2、Imagen 等主流文生图模型的标准训练与推理范式
工作原理
CFG 将有条件与无条件的噪声预测合并,通过引导系数 w 放大条件信号的影响。
- 训练阶段:以概率 p(常见取值 0.1–0.2)随机将条件 c 替换为空(∅),使模型同时学会有条件与无条件去噪
- 推理公式:
ε_guided = ε_uncond + w × (ε_cond − ε_uncond),其中 w 为 guidance scale - 两次前向传播:每个去噪步骤需运行两次(有条件 + 无条件),再做线性外推
- 引导系数 w:w=1 等价于无引导;通常 5–15 之间效果较好;w 过大易出现过饱和、模式崩溃
与分类器引导的区别
CFG 是对 分类器引导(Classifier Guidance) 的改进,两者目标相同但实现路径不同。
- 分类器引导:需单独训练噪声鲁棒分类器,推理时将其梯度叠加到扩散模型的得分估计上,流程复杂
- CFG:无需独立分类器,只用一个生成网络即可完成,部署更简单
- 质量对比:CFG 在 FID 和 IS 等指标上可达到与分类器引导相近甚至更优的效果
- 计算开销:CFG 每步多一次前向传播(2× cost),分类器引导则还需额外的分类器前向 + 梯度反传
应用场景
CFG 已广泛应用于多种条件生成任务,不局限于图像领域。
- 文生图:Stable Diffusion、DALL·E 2、Imagen、SDXL 均使用 CFG 控制文本对齐度
- 图像编辑:InstructPix2Pix 等借助 CFG 在保留原图结构的同时响应指令
- 文本生成:将 CFG 迁移至语言模型,引导输出更符合特定主题或风格
- 音频合成:AudioLDM、MusicLDM 等文生音频模型采用 CFG 提升音频与文本描述的一致性
- 视频生成:Sora、CogVideo 等视频扩散模型同样内置 CFG
局限与常见误区
CFG 并非万能,理解其局限有助于避免实践中的常见错误。
- 计算翻倍:每步需运行两次前向,推理速度约为无引导模式的 1/2
- 过高 w 的副作用:色彩过饱和、细节退化、多样性显著下降,甚至出现伪影
- 误区一:「w 越高质量越好」——实际上超过一定阈值后质量反而下降
- 误区二:「CFG 只适用于图像」——实际已成功迁移至语言、音频、视频等模态
- 误区三:「CFG 和 LoRA/ControlNet 冲突」——它们作用于不同层次,可以叠加使用
变体与改进
研究者针对经典 CFG 的不足提出了多种改进方案。
- CFG++(2024):引入流形约束,减少高 w 值下的误差累积,在更小的引导系数下达到同等效果
- Perturbed-Attention Guidance(PAG):无需无条件分支,通过扰动注意力图实现引导,降低计算开销
- Negative Prompt:将「不想要的内容」作为负条件替代空条件,是 CFG 在实践中的常见扩展
- 动态 CFG:在不同去噪时间步使用不同的 w 值,平衡早期结构与晚期细节
发展脉络
CFG 诞生于扩散模型快速发展的阶段,推动了条件生成技术的普及。
- 2020 年:Ho 等提出 DDPM,奠定扩散模型基础
- 2021 年:Dhariwal & Nichol 提出分类器引导(Classifier Guidance),首次实现高质量条件生成
- 2022 年 7 月:Ho & Salimans 发布 CFG 论文(arXiv:2207.12598),无需独立分类器即可实现条件控制
- 2022 年下半年:Stable Diffusion、DALL·E 2、Imagen 等相继集成 CFG,推动文生图爆发
- 2023–2024 年:CFG 扩展至语言模型、音频、视频;CFG++ 等改进方案持续涌现
- 2025 年至今:CFG 成为生成式 AI 基础设施的标准模块,研究重心转向效率优化与无分类器架构创新
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「CFG 就是告诉模型『生成时要多听文字描述』——数值调得越高,图越符合提示词,但容易画得太死板。」
- 「Guidance Scale 就像一个『服从度旋钮』,拧到 1 相当于不听指挥,拧到 15 以上往往会过度饱和。」
- 「CFG 的巧妙在于同一个模型既跑有条件又跑无条件,两次结果做差就能得到方向,不用再单独训练分类器。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 2 篇文章,帮助深入理解该术语。