核心要点

  • 能定义确定性/随机性策略

  • 理解策略是 RL 的核心优化对象

  • 区分基于策略 vs 基于价值的方法

  • 知道策略参数化(神经网络

简要回答

策略(Policy) π:在状态 s 下选择动作的规则;

  • 确定性:a = μ(s)
  • 随机性:π(a|s) = P(A_t=a | S_t=s),支持探索

角色

  1. 行为核心:Agent 每步按 π 决策,完全决定轨迹分布
  2. 优化目标:学 π* 使 J(π) = E[G_0] 最大
  3. 两类方法
    • Value-based:先学 Q*,再 π(s)=argmax Q(DQN
    • Policy-based:直接参数化 π_θ,梯度上升(REINFORCE、PPO

深度 RL:π_θ 常为神经网络(Actor),输出动作概率或连续动作均值/方差

标准回答

策略(Policy) π:在状态 s 下选择动作的规则。

  • 确定性:a = μ(s)
  • 随机性:π(a|s) = P(A_t=a | S_t=s),支持探索

角色

  1. 行为核心:Agent 每步按 π 决策,完全决定轨迹分布
  2. 优化目标:学 π* 使 J(π) = E[G_0] 最大
  3. 两类方法
    • Value-based:先学 Q*,再 π(s)=argmax Q(DQN)
    • Policy-based:直接参数化 π_θ,梯度上升(REINFORCE、PPO)

深度 RL:π_θ 常为神经网络(Actor),输出动作概率或连续动作均值/方差。PPO 等用 clipped objective 稳定策略更新。

与价值函数关系:策略评估求 V^π;策略改进用 Q^π 贪心;Actor-Critic 同时维护 π 与 V/Q。详见 强化学习入门

常见误区

⚠️ 常见踩坑

策略与价值函数混为一谈;只说「神经网络输出动作」不说分布与探索;忽视约束策略更新的必要性。

追问

追问 1随机策略比确定性策略好在哪里?

探索需要随机性;某些环境最优策略本身随机(如石头剪刀布);策略梯度定理对随机策略有干净表达。确定性策略可用 OU 噪声等外加探索。

追问 2策略梯度定理直觉?

∇J(θ) = E[∇log π_θ(a|s) · Q^π(s,a)]:沿着「提高高回报动作概率、降低低回报动作概率」的方向更新参数。关键是梯度绕开了环境转移项,只需对策略求导,因此无需环境模型即可优化;实践中用优势 A 替代 Q 降方差。

追问 3约束策略更新为什么重要(如 PPO clip)?

大步策略更新导致数据分布剧变,on-policy 假设破坏、训练崩溃。Trust Region / PPO clip 限制 KL 或比率,保证单调改进近似。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。