Bellman 方程是什么？在强化学习中如何使用？

Q: Bellman 方程和贝尔曼期望方程有何区别？

贝尔曼期望方程描述特定策略 π 下的价值递推；贝尔曼最优性方程对动作取 max，描述最优价值。策略评估用前者，价值迭代/Q-Learning 瞄准后者。

Q: 没有环境模型还能用 Bellman 方程吗？

可以。模型已知时用 DP 精确求解；模型未知时用采样估计 Bellman 右侧——即 MC（用完整回报）或 TD（用一步 bootstrapping），这是 model-free RL 的理论基础。

Question 1

Bellman 方程是什么？在强化学习中如何使用？

Accepted Answer

状态价值 Bellman 方程（策略 π 下）： V^π(s) = E_π[R_{t+1} + γ V^π(S_{t+1}) S_t = s] 动作价值 Bellman 方程： Q^π(s,a) = E[R_{t+1} + γ V^π(S_{t+1}) S_t=s, A_t=a] 最优 Bellman 方程（Bellman 最优性）： V*(s) = max_a E[R + γ V*(S') s,a] Q*(s,a) = E[R + γ max_{a'} Q*(s',a') s,a] 在 RL 中的用途： 1. 动态规划：策略评估/改进迭代求解 Bellman 方程（需已知环境模型）。 2. 时序差分：用样本 (r,s') 构造 TD 目标，近似 Bellman 右侧（bootstrapping）。 3. Q-Learning：直接对最优 Bellman 方程做随机逼近，学习 Q*。 折扣因子 γ ∈ 0,1) 保证无限时域回报有界，并使 Bellman 算子成为压缩映射，保证迭代收敛。详见 [RL 数学基础。

Question 2

Bellman 算子为什么是压缩映射？

Accepted Answer

因为最优 Bellman 算子 T 在无穷范数下满足 ‖TV₁ - TV₂‖_∞ ≤ γ‖V₁ - V₂‖_∞，γ<1 即 γ-压缩。由 Banach 不动点定理，反复应用 T 必收敛到唯一不动点 V*，这正是价值迭代收敛的理论依据；γ 越接近 1 收敛越慢。

Question 3

Bellman 方程和贝尔曼期望方程有何区别？

Accepted Answer

贝尔曼期望方程描述特定策略 π 下的价值递推；贝尔曼最优性方程对动作取 max，描述最优价值。策略评估用前者，价值迭代/Q-Learning 瞄准后者。

Question 4

没有环境模型还能用 Bellman 方程吗？

Accepted Answer

可以。模型已知时用 DP 精确求解；模型未知时用采样估计 Bellman 右侧——即 MC（用完整回报）或 TD（用一步 bootstrapping），这是 model-free RL 的理论基础。

Bellman 方程是什么？在强化学习中如何使用？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习