核心要点
能准确定义五要素及其交互循环
理解状态 vs 观测(部分可观测)
知道奖励设计对学习目标的影响
能画 agent-environment 交互图
简要回答
五要素定义:
| 术语 | 含义 |
|---|---|
| Agent(智能体) | 决策者,含策略 π,选动作 |
| Environment(环境) | Agent 外部的一切,含状态转移与奖励规则 |
| State(状态) | 对世界某时刻的充分描述 s ∈ S |
| Action(动作) | Agent 可执行的选择 a ∈ A |
| Reward(奖励) | 环境反馈的标量信号 r,定义「好坏」 |
交互循环(每步 t):
- Agent 观测 S_t(或观测 O_t)
- 选 A_t ~ π(·|S_t)
- 环境执行:S_{t+1} ~ P(·|S_t,A_t),给出 R_{t+1}
- Agent 用 (S_t,A_t,R_{t+1},S_{t+1}) 更新
注意:奖励是人为设计的优化目标,不等于真实目标;错误奖励导致 reward hacking
标准回答
五要素定义:
| 术语 | 含义 |
|---|---|
| Agent(智能体) | 决策者,含策略 π,选动作 |
| Environment(环境) | Agent 外部的一切,含状态转移与奖励规则 |
| State(状态) | 对世界某时刻的充分描述 s ∈ S |
| Action(动作) | Agent 可执行的选择 a ∈ A |
| Reward(奖励) | 环境反馈的标量信号 r,定义「好坏」 |
交互循环(每步 t):
- Agent 观测 S_t(或观测 O_t)
- 选 A_t ~ π(·|S_t)
- 环境执行:S_{t+1} ~ P(·|S_t,A_t),给出 R_{t+1}
- Agent 用 (S_t,A_t,R_{t+1},S_{t+1}) 更新
注意:奖励是人为设计的优化目标,不等于真实目标;错误奖励导致 reward hacking。详见 强化学习入门。
常见误区
⚠️ 常见踩坑
把环境当成「数据集」;奖励与回报(累积奖励)混淆;忽略 Agent 边界如何划定(多 Agent 系统)。
追问
追问 1:状态和观测有何区别?
状态 s 是环境的完整描述(MDP);观测 o 是智能体实际感知,可能不完整(POMDP)。如机器人摄像头像素是观测,真实位姿是状态。
追问 2:动作空间有哪些类型?
离散(上下左右)、连续(转向角、油门)、混合、分层(高层选子目标、低层执行)。算法选型依赖动作空间类型。
追问 3:稀疏奖励如何处理?
奖励塑形、好奇心探索、模仿学习初始化、HER(目标重标记)、课程学习逐步增加难度。需警惕塑形改变最优策略。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究