强化学习中的策略（Policy）起什么作用？

Question 1

Accepted Answer

策略（Policy） π：在状态 s 下选择动作的规则。 - 确定性：a = μ(s) - 随机性：π(a s) = P(A_t=a S_t=s)，支持探索 角色： 1. 行为核心：Agent 每步按 π 决策，完全决定轨迹分布 2. 优化目标：学 π* 使 J(π) = E[G_0] 最大 3. 两类方法： - Value-based：先学 Q*，再 π(s)=argmax Q（DQN） - Policy-based：直接参数化 π_θ，梯度上升（REINFORCE、PPO） 深度 RL：π_θ 常为神经网络（Actor），输出动作概率或连续动作均值/方差。PPO 等用 clipped objective 稳定策略更新。 与价值函数关系：策略评估求 V^π；策略改进用 Q^π 贪心；Actor-Critic 同时维护 π 与 V/Q。详见 强化学习入门。

Question 2

随机策略比确定性策略好在哪里？

Accepted Answer

探索需要随机性；某些环境最优策略本身随机（如石头剪刀布）；策略梯度定理对随机策略有干净表达。确定性策略可用 OU 噪声等外加探索。

Question 3

策略梯度定理直觉？

Accepted Answer

∇J(θ) = E[∇log π_θ(a s) · Q^π(s,a)]：沿着「提高高回报动作概率、降低低回报动作概率」的方向更新参数。关键是梯度绕开了环境转移项，只需对策略求导，因此无需环境模型即可优化；实践中用优势 A 替代 Q 降方差。

Question 4

约束策略更新为什么重要（如 PPO clip）？

Accepted Answer

大步策略更新导致数据分布剧变，on-policy 假设破坏、训练崩溃。Trust Region / PPO clip 限制 KL 或比率，保证单调改进近似。

强化学习中的策略（Policy）起什么作用？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习