Classifier-Free Guidance(无分类器引导)

CFG 就是告诉模型『生成时要多听文字描述』——数值调得越高,图越符合提示词,但容易画得太死板。

亦作、亦称:无分类器引导 · CFG · classifier-free diffusion guidance · 无分类器扩散引导

无分类器引导(CFG)让扩散模型无需外部分类器即可精准响应文本或其他条件,是当代文生图系统的核心控制机制。通过一个「服从度」参数,用户可以在创意多样性与提示词忠实度之间灵活权衡。

概述

无分类器引导(Classifier-Free Guidance,CFG)是扩散模型条件生成的关键技术,解决了「如何在不借助外部分类器的情况下让生成结果服从给定条件」的问题。

  • 核心目标:在样本质量(忠实度)与多样性之间提供可控权衡
  • 提出时间:2022 年,作者 Jonathan Ho 与 Tim Salimans,来自 Google Research
  • 论文地址:arXiv:2207.12598,被引超过 1800 次
  • 地位:已成为 Stable Diffusion、DALL·E 2、Imagen 等主流文生图模型的标准训练与推理范式

工作原理

CFG 将有条件与无条件的噪声预测合并,通过引导系数 w 放大条件信号的影响。

  • 训练阶段:以概率 p(常见取值 0.1–0.2)随机将条件 c 替换为空(∅),使模型同时学会有条件与无条件去噪
  • 推理公式ε_guided = ε_uncond + w × (ε_cond − ε_uncond),其中 w 为 guidance scale
  • 两次前向传播:每个去噪步骤需运行两次(有条件 + 无条件),再做线性外推
  • 引导系数 w:w=1 等价于无引导;通常 5–15 之间效果较好;w 过大易出现过饱和、模式崩溃

与分类器引导的区别

CFG 是对 分类器引导(Classifier Guidance) 的改进,两者目标相同但实现路径不同。

  • 分类器引导:需单独训练噪声鲁棒分类器,推理时将其梯度叠加到扩散模型的得分估计上,流程复杂
  • CFG:无需独立分类器,只用一个生成网络即可完成,部署更简单
  • 质量对比:CFG 在 FID 和 IS 等指标上可达到与分类器引导相近甚至更优的效果
  • 计算开销:CFG 每步多一次前向传播(2× cost),分类器引导则还需额外的分类器前向 + 梯度反传

应用场景

CFG 已广泛应用于多种条件生成任务,不局限于图像领域。

  • 文生图:Stable Diffusion、DALL·E 2、Imagen、SDXL 均使用 CFG 控制文本对齐度
  • 图像编辑:InstructPix2Pix 等借助 CFG 在保留原图结构的同时响应指令
  • 文本生成:将 CFG 迁移至语言模型,引导输出更符合特定主题或风格
  • 音频合成:AudioLDM、MusicLDM 等文生音频模型采用 CFG 提升音频与文本描述的一致性
  • 视频生成:Sora、CogVideo 等视频扩散模型同样内置 CFG

局限与常见误区

CFG 并非万能,理解其局限有助于避免实践中的常见错误。

  • 计算翻倍:每步需运行两次前向,推理速度约为无引导模式的 1/2
  • 过高 w 的副作用:色彩过饱和、细节退化、多样性显著下降,甚至出现伪影
  • 误区一:「w 越高质量越好」——实际上超过一定阈值后质量反而下降
  • 误区二:「CFG 只适用于图像」——实际已成功迁移至语言、音频、视频等模态
  • 误区三:「CFG 和 LoRA/ControlNet 冲突」——它们作用于不同层次,可以叠加使用

变体与改进

研究者针对经典 CFG 的不足提出了多种改进方案。

  • CFG++(2024):引入流形约束,减少高 w 值下的误差累积,在更小的引导系数下达到同等效果
  • Perturbed-Attention Guidance(PAG):无需无条件分支,通过扰动注意力图实现引导,降低计算开销
  • Negative Prompt:将「不想要的内容」作为负条件替代空条件,是 CFG 在实践中的常见扩展
  • 动态 CFG:在不同去噪时间步使用不同的 w 值,平衡早期结构与晚期细节

发展脉络

CFG 诞生于扩散模型快速发展的阶段,推动了条件生成技术的普及。

  • 2020 年:Ho 等提出 DDPM,奠定扩散模型基础
  • 2021 年:Dhariwal & Nichol 提出分类器引导(Classifier Guidance),首次实现高质量条件生成
  • 2022 年 7 月:Ho & Salimans 发布 CFG 论文(arXiv:2207.12598),无需独立分类器即可实现条件控制
  • 2022 年下半年:Stable Diffusion、DALL·E 2、Imagen 等相继集成 CFG,推动文生图爆发
  • 2023–2024 年:CFG 扩展至语言模型、音频、视频;CFG++ 等改进方案持续涌现
  • 2025 年至今:CFG 成为生成式 AI 基础设施的标准模块,研究重心转向效率优化与无分类器架构创新

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「CFG 就是告诉模型『生成时要多听文字描述』——数值调得越高,图越符合提示词,但容易画得太死板。」
  • 「Guidance Scale 就像一个『服从度旋钮』,拧到 1 相当于不听指挥,拧到 15 以上往往会过度饱和。」
  • 「CFG 的巧妙在于同一个模型既跑有条件又跑无条件,两次结果做差就能得到方向,不用再单独训练分类器。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 2 篇文章,帮助深入理解该术语。

  1. 1

    Stable Diffusion 全景解析:AI 图像生成从潜空间到 DiT 架构的完整技术栈

    系统掌握 AI 图像生成的完整技术栈——从 DDPM 的数学基础、Latent Diffusion 的降维策略、Stable Diffusion 的开源生态,到 SD3 的 DiT 架构革命,以及 2026 年图像生成的最新进展与竞品对比

  2. 2

    正则化:BatchNorm, LayerNorm, Dropout

    从 Dropout 到 LayerNorm,掌握防止过拟合的核心技术