扩散模型中的 U-Net 起什么作用？

Question 1

扩散模型中的 U-Net 起什么作用？

Accepted Answer

U-Net 在扩散中的定位 扩散的逆过程要从含噪样本一步步去噪。每个时间步 t，网络输入「当前含噪图 + 时间步嵌入（+条件）」，输出预测的噪声 ε（等价于预测去噪方向）。这个去噪主干在主流扩散模型中由 U-Net 担任。 为什么用 U-Net 结构 U-Net 是对称的编码器-解码器：编码器逐层下采样、扩大感受野，捕捉全局语义与多尺度上下文；解码器逐层上采样，把分辨率恢复到与输入一致（噪声图与输出同尺寸）。 跳跃连接是关键 编码器每个尺度的特征通过跳跃连接直接拼接到解码器对应尺度，让高频细节和空间定位信息绕过瓶颈直达输出，避免下采样造成的细节丢失——这对像素级精确预测噪声非常重要。 条件注入 时间步 t 经正弦/MLP 嵌入加到各残差块；文本或类别条件经交叉注意力注入，使同一网络在不同步、不同提示下都能预测正确噪声。Latent Diffusion 中 U-Net 在 VAE 潜空间运行；新架构也用 DiT（Transformer）替代 U-Net。

Question 2

跳跃连接为什么对扩散去噪重要？

Accepted Answer

去噪是像素级稠密预测，需要精确的空间定位与高频细节。下采样会丢失这些信息，跳跃连接把编码器同尺度特征直接送到解码器，使细节绕过瓶颈，预测出的噪声在空间上更精准，成图更清晰、伪影更少。

Question 3

时间步信息是怎么进入网络的？

Accepted Answer

时间步 t 先经正弦位置编码再过一个小 MLP 得到时间嵌入，然后在 U-Net 的每个残差块里以加偏置或缩放的方式注入。这样同一套权重就能根据 t 知道当前噪声水平、调整去噪行为。

Question 4

DiT 用 Transformer 替换 U-Net 有什么动机？

Accepted Answer

Transformer 的可扩展性更好：增大参数与数据时性能更平滑提升，且统一的注意力结构便于多模态条件融合。DiT 把潜表示切成 patch 当 token 处理，时间步与条件经自适应 LayerNorm 注入。但「预测噪声」的扩散本质不变。

扩散模型中的 U-Net 起什么作用？

核心要点

标准回答

常见误区

追问

延伸学习