标准回答
U-Net 在扩散中的定位
扩散的逆过程要从含噪样本一步步去噪。每个时间步 t,网络输入「当前含噪图 + 时间步嵌入(+条件)」,输出预测的噪声 ε(等价于预测去噪方向)。这个去噪主干在主流扩散模型中由 U-Net 担任。
为什么用 U-Net 结构
U-Net 是对称的编码器-解码器:编码器逐层下采样、扩大感受野,捕捉全局语义与多尺度上下文;解码器逐层上采样,把分辨率恢复到与输入一致(噪声图与输出同尺寸)。
跳跃连接是关键
编码器每个尺度的特征通过跳跃连接直接拼接到解码器对应尺度,让高频细节和空间定位信息绕过瓶颈直达输出,避免下采样造成的细节丢失——这对像素级精确预测噪声非常重要。
条件注入
时间步 t 经正弦/MLP 嵌入加到各残差块;文本或类别条件经交叉注意力注入,使同一网络在不同步、不同提示下都能预测正确噪声。Latent Diffusion 中 U-Net 在 VAE 潜空间运行;新架构也用 DiT(Transformer)替代 U-Net。
常见误区
⚠️ 常见踩坑
U-Net 预测的是「噪声 ε」(或等价的去噪目标 v/x0),不是直接输出干净图像;也别忽略时间步嵌入——同一组权重要靠 t 区分处于哪个去噪阶段。
追问
追问 1:跳跃连接为什么对扩散去噪重要?
去噪是像素级稠密预测,需要精确的空间定位与高频细节。下采样会丢失这些信息,跳跃连接把编码器同尺度特征直接送到解码器,使细节绕过瓶颈,预测出的噪声在空间上更精准,成图更清晰、伪影更少。
追问 2:时间步信息是怎么进入网络的?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📚 知识库
📖 术语表