核心要点

  • 前向过程逐步加高斯噪声把数据破坏成纯噪声;反向过程训练网络逐步去噪还原。

  • 网络学的是「预测每步加入的噪声 ε」,推理时从纯噪声迭代去噪 T 步得到样本。

  • Stable DiffusionVAE 压缩的 latent 空间扩散省算力,文本条件经 CLIP 编码用 Cross-Attention 注入。

  • 相比 GAN:训练更稳、多样性更好,但需多步采样、推理慢,可用 DDIM/蒸馏加速。

简要回答

训练时学一个网络预测每一步加的噪声;生成时从纯噪声出发,迭代去噪 T 步得到清晰图像,文本条件通过 Cross-Attention 注入。

标准回答

前向扩散(加噪)

从真实数据 x_0 出发,按固定方差表逐步加入高斯噪声 x_0 → x_1 → ... → x_T,T 步后近似纯噪声。这一过程无需学习,且可一步采样到任意 x_t。

反向去噪(生成)

训练一个网络(通常是 U-Net)来逆转加噪:实际优化目标是预测每一步加入的噪声 ε。推理时从纯高斯噪声 x_T 出发,迭代去噪 T 步逐渐还原出清晰样本。

Stable Diffusion 的关键工程

  • 在 VAE 压缩后的低维 latent 空间做扩散,大幅降低算力(Latent Diffusion)。
  • 文本 prompt 经 CLIP 文本编码器编码,通过 Cross-Attention 注入 U-Net 实现条件生成。

优劣与加速

优点是训练稳定、多样性好;缺点是采样要跑多步、推理慢。可用 DDIM 等确定性采样器减少步数,或用一致性/蒸馏模型做少步乃至一步生成。

常见误区

⚠️ 常见踩坑

别说「模型直接预测下一张更清晰的图」——主流 DDPM 训练目标是预测每步加入的噪声 ε,去噪是间接得到的。也别混淆扩散步数 T 与采样步数:训练用大 T,但推理可用 DDIM 等在远少于 T 的步数内完成,二者不必相等。

追问

追问 1什么是 Classifier-Free Guidance?

训练时随机丢弃条件(如文本 prompt),推理时用有条件与无条件预测差值放大条件影响:ε = ε_u + w(ε_c − ε_u)。w>1 加强 prompt 遵循,过大易过饱和、多样性下降。

追问 2Latent Diffusion 为何省算力?

在 VAE 压缩后的低维 latent 空间做扩散,分辨率低、通道少,U-Net 计算量远小于像素空间扩散;解码器最后映射回图像,在质量与效率间取得平衡(Stable Diffusion)。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。