标准回答
GAN(生成对抗网络)
GAN 由两个网络组成并相互博弈:
- 生成器(Generator):把随机噪声映射成假图像。
- 判别器(Discriminator):判断图像是真实的还是生成的。
两者对抗训练,生成器不断学着「骗过」判别器。
- 优点:推理时一次前向即可生成,采样速度快。
- 缺点:训练不稳定(两个网络要保持平衡),还容易出现模式坍缩(mode collapse)——只会生成少数几种样本,多样性差。
扩散模型(Diffusion)
扩散模型分两个过程:前向不断给图像加噪声直到变成纯噪声;模型学习其逆过程,从噪声出发多步迭代去噪,逐步还原出清晰图像(代表如 DDPM)。
- 优点:生成质量高、多样性好,训练目标简单稳定。
- 缺点:需要几十到上千步去噪,采样较慢(后续有 DDIM 等加速方法)。
对比小结
| 维度 | GAN | 扩散模型 |
|---|---|---|
| 生成方式 | 一步生成 | 多步去噪 |
| 采样速度 | 快 | 慢 |
| 训练稳定性 | 不稳定 | 稳定 |
| 多样性 | 易模式坍缩 | 好 |
| 质量 | 较高 | 高(当前主流) |
更系统的对比见 图像生成(三):Diffusion 与 GAN 对比 与 Diffusion 模型原理。
常见误区
⚠️ 常见踩坑
别误以为扩散模型「多步去噪」是反复跑同一张图。每一步模型预测并去掉一点噪声,是逐步逼近清晰图像的连续过程;也别以为 GAN 已过时——在对实时性要求高的场景,GAN 的一步采样仍有优势。
追问
追问 1:什么是模式坍缩(mode collapse)?
指 GAN 的生成器只学会生成少数几种能骗过判别器的样本,而忽略了数据真实分布中的其他模式,导致输出缺乏多样性。例如训练生成手写数字却几乎只生成「1」。它是 GAN 训练不稳定的典型表现。
追问 2:扩散模型采样慢,有哪些加速思路?
常见思路包括:用 DDIM 等确定性采样器减少去噪步数;蒸馏出少步甚至一步生成的学生模型(如一致性模型);在低维潜空间而非像素空间做扩散(如 Stable Diffusion 的 Latent Diffusion)以降低单步计算量。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。