扩散模型（Diffusion）

从噪声里画画

亦作、亦称：Diffusion

扩散模型（Diffusion Model）是一类通过学习「逐步加噪与逆向去噪」双向过程来生成数据的深度生成模型。它将真实数据逐步破坏为高斯噪声，再训练神经网络从噪声中一步步还原，最终实现从纯随机噪声出发生成高质量样本——Stable Diffusion、DALL·E 3 等主流图像生成系统均以此为核心。

概述

核心机制

扩散模型由两个方向相反的马尔可夫过程构成。

前向过程（加噪）：固定的概率过程，在 T 步内向数据逐渐叠加高斯噪声，最终变为接近纯高斯噪声的分布。
逆向过程（去噪）：由神经网络参数化，学习预测每一步叠加的噪声，从而将噪声逐步还原为真实样本。
训练目标：最小化预测噪声与实际噪声之间的均方误差，形式简洁、训练稳定。
时间步编码：去噪网络接收当前时间步 t 的嵌入，以感知当前噪声强度并给出对应预测。
采样流程：推理时从纯高斯噪声出发，反复调用去噪网络 T 步（或借助加速算法减少步数）得到最终样本。

发展脉络

扩散模型从理论雏形到工业爆发仅历经约十年。

2015：Sohl-Dickstein 等人将热力学扩散思想引入深度生成模型，首次提出扩散概率模型理论框架。
- 2019： Song & Ermon 独立提出基于 分数匹配（Score Matching） 的噪声条件得分网络（NCSN），为扩散模型提供了另一理论视角。
-2020：Ho 等人（Google Brain）发表DDPM，以简洁噪声预测目标使图像质量首次比肩 GAN；同年 Song 等人提出DDIM，将推理步数从千步压缩至数十步。
- 2022： Rombach 等人提出潜空间扩散模型（LDM），扩散过程移至 VAE 压缩后的潜变量空间，算力大幅降低；Stable Diffusion 353基于此架构开源发布。
- 2023： Peebles & Xie 提出以 Transformer 为骨干的DiT；OpenAI 发布文生视频模型 Sora。
- 2024 至今： 流匹配（Flow Matching） 范式被 Stable Diffusion 3、Flux 等新一代模型采用，效率进一步提升。

与相邻技术的对比

扩散模型常与 GAN、VAE、自回归模型并列讨论，各有优劣。

扩散模型 vs. GAN：训练更稳定，不存在生成器与判别器博弈导致的模式崩塌（Mode Collapse）；但多步去噪使推理延迟明显高于 GAN 的单次前向。
扩散模型 vs. VAE：生成质量通常更高，但计算成本更大；潜空间扩散（LDM）结合了 VAE 的压缩优势与扩散的生成能力。
扩散模型 vs. 自回归模型：扩散更擅长连续信号（图像、音频），自回归在离散序列（文本、代码）上占主导；「扩散语言模型」正尝试融合两者。
扩散模型 vs. 流匹配：流匹配以线性插值路径替代随机加噪路径，是扩散框架的推广与简化，被视为新一代范式。

主要变体

围绕效率与质量，研究者衍生出多种重要变体。

DDPM：Ho et al. 2020 年奠基工作，标准马尔可夫链加噪/去噪框架，T=1000 步。
DDIM：Song et al. 提出的确定性非马尔可夫采样，相同质量下步数可减少 10–50 倍。
LDM / Stable Diffusion：扩散过程在 VAE 的潜空间运行，大幅降低显存与算力需求。
DiT（Diffusion Transformer）：以 Transformer 替代 U-Net 作为去噪骨干网络，具备更强的扩展性。
流匹配（Flow Matching）：路径更简单直接，训练和推理均更高效，Stable Diffusion 3 等新一代模型采用。

典型应用

扩散模型在多个生成任务上已达到业界领先水平。

文生图：Stable Diffusion、Midjourney、DALL·E 3、Imagen 等主流产品均基于扩散框架。
图像编辑：局部重绘（Inpainting）、画面扩展（Outpainting）、风格迁移与超分辨率。
视频生成：Sora（OpenAI）、Gen-3（Runway）、Stable Video Diffusion 等将扩散过程扩展至时间维度。
音频与语音：AudioLDM 等模型将扩散思想用于语音合成与音乐生成。
科学计算：蛋白质骨架设计（RFDiffusion）、分子构象采样，正在加速药物研发流程。

局限与常见误区

扩散模型存在若干实际瓶颈与易被误解之处。

误区：去噪 ≠ 修复损坏图片：推理时输入是纯随机噪声，并非被破坏的真实图片；「去噪」描述的是训练中所用的目标形式。
推理延迟高：即便借助 DDIM、一致性模型（Consistency Models）等加速技术，多步去噪仍比单次前向（GAN）慢，实时场景部署成本较高。
细粒度控制难：手部细节、准确文字渲染等在部分模型上仍易出错，提示词效果因模型和 CFG 参数差异较大。
训练资源门槛高：训练大规模扩散模型需数千 GPU 小时，成本高昂。
版权与伦理风险：大规模网络爬取的训练数据带来版权争议，逼真生成能力也引发深度伪造（Deepfake）担忧。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「从噪声里画画」
「AIGC 生成方向」
「跟扩散模型是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「扩散模型」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。