核心要点

  • 能区分 V^π(s) 与 Q^π(s,a)

  • 理解 V*、Q* 与最优策略的关系

  • 知道策略评估 vs 策略改进

  • 能说明 Actor-Critic 中价值函数的作用

简要回答

状态价值 V^π(s) = E_π[G_t | S_t=s]:从 s 出发按 π 行动的期望回报
动作价值 Q^π(s,a) = E_π[G_t | S_t=s, A_t=a]:在 s 先执行 a 再按 π 行动的期望回报

标准回答

状态价值 V^π(s) = E_π[G_t | S_t=s]:从 s 出发按 π 行动的期望回报。
动作价值 Q^π(s,a) = E_π[G_t | S_t=s, A_t=a]:在 s 先执行 a 再按 π 行动的期望回报。

关系:V^π(s) = Σ_a π(a|s) Q^π(s,a);Q^π(s,a) = E[R + γ V^π(s') | s,a]

最优价值:V*(s) = max_π V^π(s);Q*(s,a) = max_π Q^π(s,a)

与策略的关系

  • 策略评估:给定 π,求 V^π 或 Q^π(DP/TD/MC)
  • 策略改进:π'(s) = argmax_a Q^π(s,a) 保证 V^{π'} ≥ V^π
  • 最优策略:π*(s) = argmax_a Q*(s,a)(贪心即最优)

Actor-Critic:Critic 学价值函数估计优势 A(s,a) = Q(s,a) - V(s),指导 Actor(策略)梯度更新。详见 强化学习入门

常见误区

⚠️ 常见踩坑

V 与 Q 关系公式写错;说「价值函数就是策略」混淆概念;忽略策略改进定理条件。

追问

追问 1为什么有时学 Q 比学 V 更方便?

Q 直接可用于动作选择(argmax),无需已知模型;V 需配合模型或额外搜索。连续动作空间常用 V + 策略梯度而非表格 Q。

追问 2优势函数 A(s,a) 有何用处?

A(s,a) = Q(s,a) - V(s) 衡量动作 a 相对该状态平均水平的好坏。策略梯度用 A 替代原始回报,能在不改变梯度期望的前提下大幅降方差(V(s) 作 baseline);GAE 用 λ 加权多步 TD 误差估计 A,是 PPO/A2C 的标配。

追问 3状态价值能否唯一确定策略?

多个策略可有相同 V^π(策略等价类)。Q 函数在最优时贪心唯一确定最优动作(假设无并列 max),但一般 Q^π 也对应多个策略。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。