核心要点

  • U-Net 是扩散逆过程的核心网络,输入含噪图与时间步 t,输出预测的噪声 ε

  • 编码器逐层下采样提取多尺度上下文,解码器逐层上采样恢复分辨率

  • 跳跃连接把编码器同尺度特征直接拼到解码器,保留高频细节、缓解信息丢失

  • 时间步用嵌入注入各层,文本/类别条件经交叉注意力引导生成

标准回答

U-Net 在扩散中的定位

扩散的逆过程要从含噪样本一步步去噪。每个时间步 t,网络输入「当前含噪图 + 时间步嵌入(+条件)」,输出预测的噪声 ε(等价于预测去噪方向)。这个去噪主干在主流扩散模型中由 U-Net 担任。

为什么用 U-Net 结构

U-Net 是对称的编码器-解码器:编码器逐层下采样、扩大感受野,捕捉全局语义与多尺度上下文;解码器逐层上采样,把分辨率恢复到与输入一致(噪声图与输出同尺寸)。

跳跃连接是关键

编码器每个尺度的特征通过跳跃连接直接拼接到解码器对应尺度,让高频细节和空间定位信息绕过瓶颈直达输出,避免下采样造成的细节丢失——这对像素级精确预测噪声非常重要。

条件注入

时间步 t 经正弦/MLP 嵌入加到各残差块;文本或类别条件经交叉注意力注入,使同一网络在不同步、不同提示下都能预测正确噪声。Latent Diffusion 中 U-Net 在 VAE 潜空间运行;新架构也用 DiT(Transformer)替代 U-Net。

常见误区

⚠️ 常见踩坑

U-Net 预测的是「噪声 ε」(或等价的去噪目标 v/x0),不是直接输出干净图像;也别忽略时间步嵌入——同一组权重要靠 t 区分处于哪个去噪阶段。

追问

追问 1跳跃连接为什么对扩散去噪重要?

去噪是像素级稠密预测,需要精确的空间定位与高频细节。下采样会丢失这些信息,跳跃连接把编码器同尺度特征直接送到解码器,使细节绕过瓶颈,预测出的噪声在空间上更精准,成图更清晰、伪影更少。

追问 2时间步信息是怎么进入网络的?

时间步 t 先经正弦位置编码再过一个小 MLP 得到时间嵌入,然后在 U-Net 的每个残差块里以加偏置或缩放的方式注入。这样同一套权重就能根据 t 知道当前噪声水平、调整去噪行为。

追问 3DiT 用 Transformer 替换 U-Net 有什么动机?

Transformer 的可扩展性更好:增大参数与数据时性能更平滑提升,且统一的注意力结构便于多模态条件融合。DiT 把潜表示切成 patch 当 token 处理,时间步与条件经自适应 LayerNorm 注入。但「预测噪声」的扩散本质不变。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。