核心要点
能定义五元组 (S,A,P,R,γ)
理解马尔可夫性:未来只依赖当前状态
区分 episodic vs continuing 任务
知道 MDP 是大多数 RL 算法的形式化基础
标准回答
马尔可夫决策过程(MDP) 五元组 (S, A, P, R, γ):
- S:状态空间(离散或连续)
- A:动作空间
- P(s'|s,a):状态转移概率(马尔可夫性:下一状态只依赖当前 s,a)
- R(s,a,s') 或 R(s,a):奖励函数
- γ:折扣因子
马尔可夫性:P(S_{t+1}|S_t,A_t,S_{t-1},...) = P(S_{t+1}|S_t,A_t)。这使最优决策可归结为当前状态的 策略 π(a|s),无需完整历史。
任务类型:
- Episodic(回合制):有终止状态,如围棋一局
- Continuing:无终止,如库存控制
与 RL 关系:环境通常建模为 MDP(或 POMDP 部分可观测扩展)。Agent 通过与环境交互估计 P、R 或直接学策略/价值。详见 强化学习入门。
常见误区
⚠️ 常见踩坑
把 MDP 说成「有奖励的机器学习」却说不清马尔可夫性;忽略 γ 或混淆状态与观测。
追问
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究