核心要点

  • 能讲清思路:把策略建成条件扩散模型,以观测为条件,从噪声迭代去噪生成一段动作序列

  • 能说出动机:专家演示的动作常是多模态的,回归式策略会把多个模式平均成无效动作;扩散显式建模多模态

  • 能说出关键设计:动作分块(action chunking)预测未来若干步、滚动重规划(receding horizon)

  • 能说出代价:多步去噪带来推理延迟,需减少去噪步数或用一致性/蒸馏加速

标准回答

核心思想

Diffusion Policy 把机器人策略建模为以当前观测为条件的扩散模型:训练时对专家动作加噪并学去噪网络;推理时从高斯噪声出发,以观测为条件迭代去噪,生成一段动作序列。

为什么比回归式策略好

人类演示往往是多模态的——绕过障碍可左可右。MSE 回归会把不同模式平均成中间的无效动作;扩散模型显式建模整个动作分布,能采样出某一个连贯模式,对多模态、接触丰富的任务更稳健,训练也更稳定。

关键设计

  • 动作分块:一次预测未来 H 步动作而非单步,保证时间一致性、减少抖动。
  • 滚动重规划:执行其中前几步后基于新观测重新生成(receding horizon),兼顾一致性与反应性。
  • 加速:原始多步去噪推理慢,可减步、用 DDIM 或一致性/蒸馏方法加速以满足实时控制。

常见误区

⚠️ 常见踩坑

Diffusion Policy 的卖点是多模态建模而非「图像生成那套」:别只盯生成质量;它的价值在避免动作平均化,且必须解决多步去噪的实时性,否则控制频率不够。

追问

追问 1Diffusion Policy 推理慢如何满足实时控制?

三类手段:减少去噪步数(用 DDIM 等少步采样);用一致性模型/蒸馏把多步压成一步;配合动作分块——一次生成多步动作并执行多步后再重规划,从而摊薄每步的去噪成本。也可在 GPU 上批量并行去噪。

追问 2Diffusion Policy 和 VLA 是竞争还是互补?

更多是互补的不同层面。VLA 强调视觉语言到动作的端到端泛化与指令理解;Diffusion Policy 强调动作分布的多模态建模与生成方式。近年不少 VLA 直接用扩散动作头替代离散 token 自回归,把两者结合,兼顾泛化与连续多模态动作。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。