标准回答
问题形态与算法选择
机器人控制通常是连续动作空间的序列决策。常用算法:PPO(on-policy,稳定、易并行,常用于仿真大规模训练)、SAC(off-policy、最大熵、样本效率高,适合真机或采样受限场景)。
三大核心难点
- 奖励设计:稀疏奖励难学,奖励塑形又易诱发投机(reward hacking);需兼顾任务完成与平滑、节能、安全。
- 样本成本:真机交互慢、贵、易损坏硬件,难以承受百万级试错。
- 安全约束:训练与部署都不能产生危险动作,需约束式 RL 或安全层。
主流落地路径
多采用「仿真大规模训练 + Sim2Real 迁移」:在仿真用域随机化训练鲁棒策略,再迁到真机并少量微调。常用行为克隆/演示预训练给 RL 一个好起点,配合课程学习从易到难。
常见误区
⚠️ 常见踩坑
别把仿真里跑通就当成功:奖励塑形不当会让策略学到「钻空子」的高分但无用行为;真机部署还需动作平滑与安全约束,否则抖动或越界损坏硬件。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。