简要回答
状态价值 V^π(s) = E_π[G_t | S_t=s]:从 s 出发按 π 行动的期望回报;
动作价值 Q^π(s,a) = E_π[G_t | S_t=s, A_t=a]:在 s 先执行 a 再按 π 行动的期望回报
标准回答
状态价值 V^π(s) = E_π[G_t | S_t=s]:从 s 出发按 π 行动的期望回报。
动作价值 Q^π(s,a) = E_π[G_t | S_t=s, A_t=a]:在 s 先执行 a 再按 π 行动的期望回报。
关系:V^π(s) = Σ_a π(a|s) Q^π(s,a);Q^π(s,a) = E[R + γ V^π(s') | s,a]
最优价值:V*(s) = max_π V^π(s);Q*(s,a) = max_π Q^π(s,a)
与策略的关系:
- 策略评估:给定 π,求 V^π 或 Q^π(DP/TD/MC)
- 策略改进:π'(s) = argmax_a Q^π(s,a) 保证 V^{π'} ≥ V^π
- 最优策略:π*(s) = argmax_a Q*(s,a)(贪心即最优)
Actor-Critic:Critic 学价值函数估计优势 A(s,a) = Q(s,a) - V(s),指导 Actor(策略)梯度更新。详见 强化学习入门。
常见误区
⚠️ 常见踩坑
V 与 Q 关系公式写错;说「价值函数就是策略」混淆概念;忽略策略改进定理条件。
追问
追问 1:为什么有时学 Q 比学 V 更方便?
Q 直接可用于动作选择(argmax),无需已知模型;V 需配合模型或额外搜索。连续动作空间常用 V + 策略梯度而非表格 Q。
追问 2:优势函数 A(s,a) 有何用处?
追问 3:状态价值能否唯一确定策略?
多个策略可有相同 V^π(策略等价类)。Q 函数在最优时贪心唯一确定最优动作(假设无并列 max),但一般 Q^π 也对应多个策略。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究