常见误区
⚠️ 常见踩坑
PPO 的裁剪作用在「概率比」而非「梯度」或「奖励」上;它是近似信赖域而非严格 KL 约束;裁剪只防过大更新,不保证单调提升。
追问
追问 1:PPO 与 TRPO 的关键区别是什么?
TRPO 用硬性 KL 约束做信赖域优化,需共轭梯度、二阶近似,实现复杂。PPO 用一阶的裁剪代理目标近似同样的「小步更新」效果,去掉了二阶计算,工程上更易实现、调参更友好,效果接近甚至更好,因此更流行。
追问 2:裁剪系数 ε 过大或过小会怎样?
ε 过小,策略每步几乎不动,学习缓慢、样本利用不充分;ε 过大,裁剪几乎不起作用,退化为普通策略梯度,可能出现破坏性的大更新导致不稳定。常用取值约 0.1~0.3,需按任务调。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。