扩散模型（Diffusion Model）的生成原理是什么？

Question 1

Accepted Answer

前向扩散（加噪） 从真实数据 x_0 出发，按固定方差表逐步加入高斯噪声 x_0 → x_1 → ... → x_T，T 步后近似纯噪声。这一过程无需学习，且可一步采样到任意 x_t。 反向去噪（生成） 训练一个网络（通常是 U-Net）来逆转加噪：实际优化目标是预测每一步加入的噪声 ε。推理时从纯高斯噪声 x_T 出发，迭代去噪 T 步逐渐还原出清晰样本。 Stable Diffusion 的关键工程 - 在 VAE 压缩后的低维 latent 空间做扩散，大幅降低算力（Latent Diffusion）。 - 文本 prompt 经 CLIP 文本编码器编码，通过 Cross-Attention 注入 U-Net 实现条件生成。 优劣与加速 优点是训练稳定、多样性好；缺点是采样要跑多步、推理慢。可用 DDIM 等确定性采样器减少步数，或用一致性/蒸馏模型做少步乃至一步生成。

Question 2

什么是 Classifier-Free Guidance？

Accepted Answer

训练时随机丢弃条件（如文本 prompt），推理时用有条件与无条件预测差值放大条件影响：ε = ε_u + w(ε_c − ε_u)。w>1 加强 prompt 遵循，过大易过饱和、多样性下降。

Question 3

Latent Diffusion 为何省算力？

Accepted Answer

在 VAE 压缩后的低维 latent 空间做扩散，分辨率低、通道少，U-Net 计算量远小于像素空间扩散；解码器最后映射回图像，在质量与效率间取得平衡（Stable Diffusion）。

扩散模型（Diffusion Model）的生成原理是什么？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习