标准回答
核心思想
Diffusion Policy 把机器人策略建模为以当前观测为条件的扩散模型:训练时对专家动作加噪并学去噪网络;推理时从高斯噪声出发,以观测为条件迭代去噪,生成一段动作序列。
为什么比回归式策略好
人类演示往往是多模态的——绕过障碍可左可右。MSE 回归会把不同模式平均成中间的无效动作;扩散模型显式建模整个动作分布,能采样出某一个连贯模式,对多模态、接触丰富的任务更稳健,训练也更稳定。
关键设计
- 动作分块:一次预测未来 H 步动作而非单步,保证时间一致性、减少抖动。
- 滚动重规划:执行其中前几步后基于新观测重新生成(receding horizon),兼顾一致性与反应性。
- 加速:原始多步去噪推理慢,可减步、用 DDIM 或一致性/蒸馏方法加速以满足实时控制。
常见误区
⚠️ 常见踩坑
Diffusion Policy 的卖点是多模态建模而非「图像生成那套」:别只盯生成质量;它的价值在避免动作平均化,且必须解决多步去噪的实时性,否则控制频率不够。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。