简要回答
训练时学一个网络预测每一步加的噪声;生成时从纯噪声出发,迭代去噪 T 步得到清晰图像,文本条件通过 Cross-Attention 注入。
标准回答
前向扩散(加噪)
从真实数据 x_0 出发,按固定方差表逐步加入高斯噪声 x_0 → x_1 → ... → x_T,T 步后近似纯噪声。这一过程无需学习,且可一步采样到任意 x_t。
反向去噪(生成)
训练一个网络(通常是 U-Net)来逆转加噪:实际优化目标是预测每一步加入的噪声 ε。推理时从纯高斯噪声 x_T 出发,迭代去噪 T 步逐渐还原出清晰样本。
Stable Diffusion 的关键工程
- 在 VAE 压缩后的低维 latent 空间做扩散,大幅降低算力(Latent Diffusion)。
- 文本 prompt 经 CLIP 文本编码器编码,通过 Cross-Attention 注入 U-Net 实现条件生成。
优劣与加速
优点是训练稳定、多样性好;缺点是采样要跑多步、推理慢。可用 DDIM 等确定性采样器减少步数,或用一致性/蒸馏模型做少步乃至一步生成。
常见误区
⚠️ 常见踩坑
别说「模型直接预测下一张更清晰的图」——主流 DDPM 训练目标是预测每步加入的噪声 ε,去噪是间接得到的。也别混淆扩散步数 T 与采样步数:训练用大 T,但推理可用 DDIM 等在远少于 T 的步数内完成,二者不必相等。
追问
追问 1:什么是 Classifier-Free Guidance?
训练时随机丢弃条件(如文本 prompt),推理时用有条件与无条件预测差值放大条件影响:ε = ε_u + w(ε_c − ε_u)。w>1 加强 prompt 遵循,过大易过饱和、多样性下降。
追问 2:Latent Diffusion 为何省算力?
在 VAE 压缩后的低维 latent 空间做扩散,分辨率低、通道少,U-Net 计算量远小于像素空间扩散;解码器最后映射回图像,在质量与效率间取得平衡(Stable Diffusion)。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- ComfyUI
节点式 Diffusion 模型 GUI,109,363+ stars。基于节点的工作流编排,可视化连接各处理模块,是最强大的图像生成工作流工具,支持 SDXL、Flux、Stable Cascade 等最新模型