核心要点

  • DDPM 逆过程是随机的马尔可夫链,每步依赖前一步并注入噪声,需要几百到上千步

  • DDIM 把逆过程改写为确定性非马尔可夫过程,复用同一训练好的噪声预测网络无需重训

  • DDIM 可在采样时跳过中间时刻(子序列),20–50 步即可出图,速度提升一个量级

  • DDIM η=0 时完全确定(同噪声同结果、可插值),η=1 退化为 DDPM

标准回答

训练目标相同两者共用同一目标:训练一个 U-Net 预测每个时间步加入的噪声 ε,损失是噪声的均方误差。区别只在 采样(逆过程) 的构造,因此 DDIM 不需要重新训练,可直接套用 DDPM 训练出的权重。DDPM:随机马尔可夫逆过程DDPM 把生成建模为一条马尔可夫链:从纯高斯噪声出发,逐步去噪,每一步 $x_{t-1}$ 只依赖 $x_t$ 并额外采样一项随机噪声。链条不能跳步,通常需要 1000 步左右,采样很慢。DDIM:确定性非马尔可夫DDIM 重新推导出一个 非马尔可夫的前向族,使逆过程可以写成确定性映射(随机项系数 η 可调)。η=0 时采样完全确定,相同初始噪声得到相同图像,且支持潜在空间插值。因为不再要求逐步马尔可夫,DDIM 可只在一个稀疏时间子序列上迭代,20–50 步即可生成高质量样本。为什么更快:步数从上千降到几十,且每步计算量与 DDPM 相同,所以总体加速约一个量级。

常见误区

⚠️ 常见踩坑

DDIM 不是另一个模型或另一套训练,它复用 DDPM 权重只改采样;也别说 DDIM「无噪声所以质量更高」——极少步时质量会下降,需在步数与保真度间权衡。

追问

追问 1DDIM 的 η 参数控制什么?

η 控制逆过程随机性的强度。η=0 时采样完全确定(非马尔可夫、可复现、可插值);η=1 时恢复成原始 DDPM 的随机马尔可夫采样;中间值则在确定性与多样性之间过渡。

追问 2为什么 DDIM 能做潜在空间插值而 DDPM 难?

因为 η=0 的 DDIM 是从初始噪声到图像的确定性映射,初始噪声可视作图像的「潜编码」,对两个噪声做球面插值能得到语义平滑过渡的图像。DDPM 每步注入随机噪声,最终结果不由初始噪声唯一决定,难以插值。

追问 3还有哪些更快的扩散采样器?

DPM-Solver / DPM-Solver++ 把逆过程看作常微分方程(概率流 ODE),用高阶数值解法,10–20 步即可;还有 DEIS、UniPC 等。它们与 DDIM 思路一脉相承:把随机采样转为求解确定性 ODE 从而减少步数。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。