强化学习中的马尔可夫决策过程（MDP）是什么？

Question 1

Accepted Answer

马尔可夫决策过程（MDP） 五元组 (S, A, P, R, γ)： - S：状态空间（离散或连续） - A：动作空间 - P(s' s,a)：状态转移概率（马尔可夫性：下一状态只依赖当前 s,a） - R(s,a,s') 或 R(s,a)：奖励函数 - γ：折扣因子 马尔可夫性：P(S_{t+1} S_t,A_t,S_{t-1},...) = P(S_{t+1} S_t,A_t)。这使最优决策可归结为当前状态的 策略 π(a s)，无需完整历史。 任务类型： - Episodic（回合制）：有终止状态，如围棋一局 - Continuing：无终止，如库存控制 与 RL 关系：环境通常建模为 MDP（或 POMDP 部分可观测扩展）。Agent 通过与环境交互估计 P、R 或直接学策略/价值。详见 强化学习入门。

Question 2

真实环境不满足马尔可夫性怎么办？

Accepted Answer

用历史窗口拼接状态、用 RNN/LSTM 编码轨迹，或形式化为 POMDP 用信念状态（belief state）做决策。Atari 常用帧堆叠近似马尔可夫。

Question 3

MDP 和 POMDP 的核心区别？

Accepted Answer

POMDP 智能体只观测 o 而非真实状态 s，需维护信念分布 b(s)。机器人、对话等部分可观测场景更贴近 POMDP，求解更难。

Question 4

奖励函数设计对 MDP 求解有何影响？

Accepted Answer

稀疏奖励使探索困难；塑形奖励（reward shaping）可加速学习但可能改变最优策略（需势能函数保证最优性不变）。工程上 reward hacking 是常见坑。

强化学习中的马尔可夫决策过程（MDP）是什么？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习