核心要点

  • 能定义五元组 (S,A,P,R,γ)

  • 理解马尔可夫性:未来只依赖当前状态

  • 区分 episodic vs continuing 任务

  • 知道 MDP 是大多数 RL 算法的形式化基础

简要回答

马尔可夫决策过程(MDP) 五元组 (S, A, P, R, γ):

  • S:状态空间(离散或连续)
  • A:动作空间
  • P(s'|s,a):状态转移概率(马尔可夫性:下一状态只依赖当前 s,a)
  • R(s,a,s')R(s,a):奖励函数
  • γ折扣因子

马尔可夫性:P(S_{t+1}|S_t,A_t,S_{t-1},...) = P(S_{t+1}|S_t,A_t);这使最优决策可归结为当前状态的 策略 π(a|s),无需完整历史

标准回答

马尔可夫决策过程(MDP) 五元组 (S, A, P, R, γ):

  • S:状态空间(离散或连续)
  • A:动作空间
  • P(s'|s,a):状态转移概率(马尔可夫性:下一状态只依赖当前 s,a)
  • R(s,a,s')R(s,a):奖励函数
  • γ:折扣因子

马尔可夫性:P(S_{t+1}|S_t,A_t,S_{t-1},...) = P(S_{t+1}|S_t,A_t)。这使最优决策可归结为当前状态的 策略 π(a|s),无需完整历史。

任务类型

  • Episodic回合制):有终止状态,如围棋一局
  • Continuing:无终止,如库存控制

与 RL 关系:环境通常建模为 MDP(或 POMDP 部分可观测扩展)。Agent 通过与环境交互估计 P、R 或直接学策略/价值。详见 强化学习入门

常见误区

⚠️ 常见踩坑

把 MDP 说成「有奖励的机器学习」却说不清马尔可夫性;忽略 γ 或混淆状态与观测。

追问

追问 1真实环境不满足马尔可夫性怎么办?

用历史窗口拼接状态、用 RNN/LSTM 编码轨迹,或形式化为 POMDP 用信念状态(belief state)做决策。Atari 常用帧堆叠近似马尔可夫。

追问 2MDP 和 POMDP 的核心区别?

POMDP 智能体只观测 o 而非真实状态 s,需维护信念分布 b(s)。机器人、对话等部分可观测场景更贴近 POMDP,求解更难。

追问 3奖励函数设计对 MDP 求解有何影响?

稀疏奖励使探索困难;塑形奖励(reward shaping)可加速学习但可能改变最优策略(需势能函数保证最优性不变)。工程上 reward hacking 是常见坑。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。