核心要点

  • GAN生成器判别器互相对抗,一步生成;采样快,但训练不稳定、易模式坍缩。

  • 扩散模型:通过多步迭代「去噪」生成图像;质量高、多样性好,但采样慢。

  • 核心权衡:GAN 重「速度」,扩散重「质量与稳定性」。

标准回答

GAN(生成对抗网络)

GAN 由两个网络组成并相互博弈:

  • 生成器(Generator):把随机噪声映射成假图像。
  • 判别器(Discriminator):判断图像是真实的还是生成的。

两者对抗训练,生成器不断学着「骗过」判别器。

  • 优点:推理时一次前向即可生成,采样速度快
  • 缺点:训练不稳定(两个网络要保持平衡),还容易出现模式坍缩(mode collapse)——只会生成少数几种样本,多样性差。

扩散模型(Diffusion)

扩散模型分两个过程:前向不断给图像加噪声直到变成纯噪声;模型学习其逆过程,从噪声出发多步迭代去噪,逐步还原出清晰图像(代表如 DDPM)。

  • 优点:生成质量高、多样性好,训练目标简单稳定
  • 缺点:需要几十到上千步去噪,采样较慢(后续有 DDIM 等加速方法)。

对比小结

维度 GAN 扩散模型
生成方式 一步生成 多步去噪
采样速度
训练稳定性 不稳定 稳定
多样性 易模式坍缩
质量 较高 高(当前主流)

更系统的对比见 图像生成(三):Diffusion 与 GAN 对比Diffusion 模型原理

常见误区

⚠️ 常见踩坑

别误以为扩散模型「多步去噪」是反复跑同一张图。每一步模型预测并去掉一点噪声,是逐步逼近清晰图像的连续过程;也别以为 GAN 已过时——在对实时性要求高的场景,GAN 的一步采样仍有优势。

追问

追问 1什么是模式坍缩(mode collapse)?

指 GAN 的生成器只学会生成少数几种能骗过判别器的样本,而忽略了数据真实分布中的其他模式,导致输出缺乏多样性。例如训练生成手写数字却几乎只生成「1」。它是 GAN 训练不稳定的典型表现。

追问 2扩散模型采样慢,有哪些加速思路?

常见思路包括:用 DDIM 等确定性采样器减少去噪步数;蒸馏出少步甚至一步生成的学生模型(如一致性模型);在低维潜空间而非像素空间做扩散(如 Stable Diffusion 的 Latent Diffusion)以降低单步计算量。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。