核心要点

  • 能讲清问题形态:机器人多为连续动作空间(关节力矩/末端速度),常用 PPO(on-policy)、SAC(off-policy 样本高效)

  • 能说出三大难点:奖励设计难(稀疏/塑形)、样本昂贵且危险、安全约束硬

  • 能说出主流路径:仿真大规模训练 + Sim2Real 迁移,必要时真机微调

  • 能说出实用技巧:行为克隆预训练再 RL 微调、课程学习、动作平滑/安全层兜底

标准回答

问题形态与算法选择

机器人控制通常是连续动作空间的序列决策。常用算法:PPO(on-policy,稳定、易并行,常用于仿真大规模训练)、SAC(off-policy、最大熵、样本效率高,适合真机或采样受限场景)。

三大核心难点

  • 奖励设计:稀疏奖励难学,奖励塑形又易诱发投机(reward hacking);需兼顾任务完成与平滑、节能、安全。
  • 样本成本:真机交互慢、贵、易损坏硬件,难以承受百万级试错。
  • 安全约束:训练与部署都不能产生危险动作,需约束式 RL 或安全层。

主流落地路径

多采用「仿真大规模训练 + Sim2Real 迁移」:在仿真用域随机化训练鲁棒策略,再迁到真机并少量微调。常用行为克隆/演示预训练给 RL 一个好起点,配合课程学习从易到难。

常见误区

⚠️ 常见踩坑

别把仿真里跑通就当成功:奖励塑形不当会让策略学到「钻空子」的高分但无用行为;真机部署还需动作平滑与安全约束,否则抖动或越界损坏硬件。

追问

追问 1为什么机器人 RL 偏好 SAC 而非 DQN?

DQN 面向离散动作,机器人是连续控制无法直接用。SAC 是连续动作的 off-policy actor-critic,最大熵目标鼓励探索、样本效率高、对超参较鲁棒,适合采样昂贵的真机;PPO 虽稳定但 on-policy 样本利用率低,更适合可大规模并行的仿真。

追问 2稀疏奖励下机器人学不动怎么办?

可做奖励塑形给中间引导、用课程学习从简单子任务起步、加内在好奇心奖励促进探索、用 HER(事后经验回放)把失败轨迹重标为达成其他目标,或先用少量演示做模仿学习预训练,再 RL 微调。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。