核心要点
能写出状态价值与动作价值的 Bellman 方程
理解最优 Bellman 方程与压缩映射、收敛性
知道动态规划、TD、Q-Learning 如何基于 Bellman 更新
能解释折扣因子 γ 在方程中的作用
简要回答
状态价值 Bellman 方程(策略 π 下):
V^π(s) = E_π[R_{t+1} + γ V^π(S_{t+1}) | S_t = s]
动作价值 Bellman 方程:
Q^π(s,a) = E[R_{t+1} + γ V^π(S_{t+1}) | S_t=s, A_t=a]
最优 Bellman 方程(Bellman 最优性):
V*(s) = max_a E[R + γ V*(S') | s,a]
Q*(s,a) = E[R + γ max_{a'} Q*(s',a') | s,a]
在 RL 中的用途:
- 动态规划:策略评估/改进迭代求解 Bellman 方程(需已知环境模型);
- 时序差分:用样本 (r,s') 构造 TD 目标,近似 Bellman 右侧(bootstrapping)
标准回答
状态价值 Bellman 方程(策略 π 下):
V^π(s) = E_π[R_{t+1} + γ V^π(S_{t+1}) | S_t = s]
动作价值 Bellman 方程:
Q^π(s,a) = E[R_{t+1} + γ V^π(S_{t+1}) | S_t=s, A_t=a]
最优 Bellman 方程(Bellman 最优性):
V*(s) = max_a E[R + γ V*(S') | s,a]
Q*(s,a) = E[R + γ max_{a'} Q*(s',a') | s,a]
在 RL 中的用途:
- 动态规划:策略评估/改进迭代求解 Bellman 方程(需已知环境模型)。
- 时序差分:用样本 (r,s') 构造 TD 目标,近似 Bellman 右侧(bootstrapping)。
- Q-Learning:直接对最优 Bellman 方程做随机逼近,学习 Q*。
折扣因子 γ ∈ [0,1) 保证无限时域回报有界,并使 Bellman 算子成为压缩映射,保证迭代收敛。详见 RL 数学基础。
常见误区
⚠️ 常见踩坑
只会背公式不会解释 bootstrapping;把 V 和 Q 的 Bellman 方程混用或忘记期望是对策略/转移概率取的。
追问
追问 1:Bellman 算子为什么是压缩映射?
因为最优 Bellman 算子 T 在无穷范数下满足 ‖TV₁ - TV₂‖∞ ≤ γ‖V₁ - V₂‖∞,γ<1 即 γ-压缩。由 Banach 不动点定理,反复应用 T 必收敛到唯一不动点 V*,这正是价值迭代收敛的理论依据;γ 越接近 1 收敛越慢。
追问 2:Bellman 方程和贝尔曼期望方程有何区别?
贝尔曼期望方程描述特定策略 π 下的价值递推;贝尔曼最优性方程对动作取 max,描述最优价值。策略评估用前者,价值迭代/Q-Learning 瞄准后者。
追问 3:没有环境模型还能用 Bellman 方程吗?
可以。模型已知时用 DP 精确求解;模型未知时用采样估计 Bellman 右侧——即 MC(用完整回报)或 TD(用一步 bootstrapping),这是 model-free RL 的理论基础。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究