Diffusion Policy 如何用于机器人动作生成？

Question 1

Accepted Answer

核心思想 Diffusion Policy 把机器人策略建模为以当前观测为条件的扩散模型：训练时对专家动作加噪并学去噪网络；推理时从高斯噪声出发，以观测为条件迭代去噪，生成一段动作序列。 为什么比回归式策略好 人类演示往往是多模态的——绕过障碍可左可右。MSE 回归会把不同模式平均成中间的无效动作；扩散模型显式建模整个动作分布，能采样出某一个连贯模式，对多模态、接触丰富的任务更稳健，训练也更稳定。 关键设计 - 动作分块：一次预测未来 H 步动作而非单步，保证时间一致性、减少抖动。 - 滚动重规划：执行其中前几步后基于新观测重新生成（receding horizon），兼顾一致性与反应性。 - 加速：原始多步去噪推理慢，可减步、用 DDIM 或一致性/蒸馏方法加速以满足实时控制。

Question 2

Diffusion Policy 推理慢如何满足实时控制？

Accepted Answer

三类手段：减少去噪步数（用 DDIM 等少步采样）；用一致性模型/蒸馏把多步压成一步；配合动作分块——一次生成多步动作并执行多步后再重规划，从而摊薄每步的去噪成本。也可在 GPU 上批量并行去噪。

Question 3

Diffusion Policy 和 VLA 是竞争还是互补？

Accepted Answer

更多是互补的不同层面。VLA 强调视觉语言到动作的端到端泛化与指令理解；Diffusion Policy 强调动作分布的多模态建模与生成方式。近年不少 VLA 直接用扩散动作头替代离散 token 自回归，把两者结合，兼顾泛化与连续多模态动作。

Diffusion Policy 如何用于机器人动作生成？

核心要点

标准回答

常见误区

追问

延伸学习