ControlNet 如何为扩散模型加入可控条件？

Question 1

Accepted Answer

要解决的问题 文生图只能用文字粗略描述构图，难以精确控制人物姿态、物体轮廓、深度布局。ControlNet 让扩散模型接受空间条件图（如边缘、姿态骨架、深度图、语义分割），实现像素级可控生成。 结构：可训练副本 + 冻结主干 ControlNet 冻结原始 U-Net（保住预训练能力），同时复制一份其编码器作为可训练分支。空间条件图先编码，喂入这个可训练副本；副本各层的输出再加回原 U-Net 解码器对应层，从而把条件信息注入去噪过程。 零卷积（zero-conv）是关键 可训练分支与主干之间用 1×1 卷积连接，且该卷积权重初始化为 0。训练刚开始时它输出 0，等于完全不改变原模型，避免一上来就破坏预训练知识；随着训练，零卷积权重逐渐学到非零值，把空间条件渐进式注入。这让小数据也能稳定微调出强可控能力。 使用 一个底模可挂多个 ControlNet（边缘 + 姿态叠加），在 ComfyUI 等工具中常与文本提示、CFG、DDIM 采样组合，精确控制构图同时保留底模画风。

Question 2

零卷积初始化为 0 有什么意义？

Accepted Answer

保证训练第一步 ControlNet 分支对主干的贡献为 0，输出与原模型完全一致，从而不破坏预训练权重、训练更稳定。随后零卷积逐步学到非零权重，条件信号被平滑、渐进地注入，避免梯度震荡和能力退化。

Question 3

ControlNet 和 LoRA 在可控生成上有何分工？

Accepted Answer

ControlNet 注入的是空间结构条件（轮廓、姿态、深度），控制「画成什么样的构图」；LoRA 是低秩微调，改变风格、人物或概念，控制「画成什么风格」。二者可叠加：LoRA 定风格、ControlNet 定构图。

Question 4

常见的 ControlNet 条件类型有哪些？

Accepted Answer

常见有 Canny/HED 边缘、OpenPose 人体姿态、深度图（MiDaS）、法线图、语义分割、涂鸉（scribble）、线稿（lineart）等。每类训练独立的 ControlNet 权重，对应不同的空间引导需求，可按场景单用或组合。

ControlNet 如何为扩散模型加入可控条件？

核心要点

标准回答

常见误区

追问

延伸学习