标准回答
策略(Policy) π:在状态 s 下选择动作的规则。
- 确定性:a = μ(s)
- 随机性:π(a|s) = P(A_t=a | S_t=s),支持探索
角色:
- 行为核心:Agent 每步按 π 决策,完全决定轨迹分布
- 优化目标:学 π* 使 J(π) = E[G_0] 最大
- 两类方法:
- Value-based:先学 Q*,再 π(s)=argmax Q(DQN)
- Policy-based:直接参数化 π_θ,梯度上升(REINFORCE、PPO)
深度 RL:π_θ 常为神经网络(Actor),输出动作概率或连续动作均值/方差。PPO 等用 clipped objective 稳定策略更新。
与价值函数关系:策略评估求 V^π;策略改进用 Q^π 贪心;Actor-Critic 同时维护 π 与 V/Q。详见 强化学习入门。
常见误区
⚠️ 常见踩坑
策略与价值函数混为一谈;只说「神经网络输出动作」不说分布与探索;忽视约束策略更新的必要性。
追问
追问 1:随机策略比确定性策略好在哪里?
探索需要随机性;某些环境最优策略本身随机(如石头剪刀布);策略梯度定理对随机策略有干净表达。确定性策略可用 OU 噪声等外加探索。
追问 2:策略梯度定理直觉?
∇J(θ) = E[∇log π_θ(a|s) · Q^π(s,a)]:沿着「提高高回报动作概率、降低低回报动作概率」的方向更新参数。关键是梯度绕开了环境转移项,只需对策略求导,因此无需环境模型即可优化;实践中用优势 A 替代 Q 降方差。
追问 3:约束策略更新为什么重要(如 PPO clip)?
大步策略更新导致数据分布剧变,on-policy 假设破坏、训练崩溃。Trust Region / PPO clip 限制 KL 或比率,保证单调改进近似。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究