核心要点

  • 能写出状态价值与动作价值的 Bellman 方程

  • 理解最优 Bellman 方程与压缩映射、收敛性

  • 知道动态规划、TD、Q-Learning 如何基于 Bellman 更新

  • 能解释折扣因子 γ 在方程中的作用

简要回答

状态价值 Bellman 方程策略 π 下):
V^π(s) = E_π[R_{t+1} + γ V^π(S_{t+1}) | S_t = s]

动作价值 Bellman 方程
Q^π(s,a) = E[R_{t+1} + γ V^π(S_{t+1}) | S_t=s, A_t=a]

最优 Bellman 方程(Bellman 最优性):
V*(s) = max_a E[R + γ V*(S') | s,a]
Q*(s,a) = E[R + γ max_{a'} Q*(s',a') | s,a]

在 RL 中的用途

  1. 动态规划:策略评估/改进迭代求解 Bellman 方程(需已知环境模型);
  2. 时序差分:用样本 (r,s') 构造 TD 目标,近似 Bellman 右侧(bootstrapping)

标准回答

状态价值 Bellman 方程(策略 π 下):
V^π(s) = E_π[R_{t+1} + γ V^π(S_{t+1}) | S_t = s]

动作价值 Bellman 方程
Q^π(s,a) = E[R_{t+1} + γ V^π(S_{t+1}) | S_t=s, A_t=a]

最优 Bellman 方程(Bellman 最优性):
V*(s) = max_a E[R + γ V*(S') | s,a]
Q*(s,a) = E[R + γ max_{a'} Q*(s',a') | s,a]

在 RL 中的用途

  1. 动态规划:策略评估/改进迭代求解 Bellman 方程(需已知环境模型)。
  2. 时序差分:用样本 (r,s') 构造 TD 目标,近似 Bellman 右侧(bootstrapping)。
  3. Q-Learning:直接对最优 Bellman 方程做随机逼近,学习 Q*。

折扣因子 γ ∈ [0,1) 保证无限时域回报有界,并使 Bellman 算子成为压缩映射,保证迭代收敛。详见 RL 数学基础

常见误区

⚠️ 常见踩坑

只会背公式不会解释 bootstrapping;把 V 和 Q 的 Bellman 方程混用或忘记期望是对策略/转移概率取的。

追问

追问 1Bellman 算子为什么是压缩映射?

因为最优 Bellman 算子 T 在无穷范数下满足 ‖TV₁ - TV₂‖∞ ≤ γ‖V₁ - V₂‖∞,γ<1 即 γ-压缩。由 Banach 不动点定理,反复应用 T 必收敛到唯一不动点 V*,这正是价值迭代收敛的理论依据;γ 越接近 1 收敛越慢。

追问 2Bellman 方程和贝尔曼期望方程有何区别?

贝尔曼期望方程描述特定策略 π 下的价值递推;贝尔曼最优性方程对动作取 max,描述最优价值。策略评估用前者,价值迭代/Q-Learning 瞄准后者。

追问 3没有环境模型还能用 Bellman 方程吗?

可以。模型已知时用 DP 精确求解;模型未知时用采样估计 Bellman 右侧——即 MC(用完整回报)或 TD(用一步 bootstrapping),这是 model-free RL 的理论基础。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。