核心要点

  • 能准确定义五要素及其交互循环

  • 理解状态 vs 观测(部分可观测)

  • 知道奖励设计对学习目标的影响

  • 能画 agent-environment 交互图

简要回答

五要素定义

术语 含义
Agent(智能体 决策者,含策略 π,选动作
Environment(环境) Agent 外部的一切,含状态转移与奖励规则
State(状态) 对世界某时刻的充分描述 s ∈ S
Action(动作) Agent 可执行的选择 a ∈ A
Reward(奖励) 环境反馈的标量信号 r,定义「好坏」

交互循环(每步 t):

  1. Agent 观测 S_t(或观测 O_t)
  2. 选 A_t ~ π(·|S_t)
  3. 环境执行:S_{t+1} ~ P(·|S_t,A_t),给出 R_{t+1}
  4. Agent 用 (S_t,A_t,R_{t+1},S_{t+1}) 更新

注意:奖励是人为设计的优化目标,不等于真实目标;错误奖励导致 reward hacking

标准回答

五要素定义

术语 含义
Agent(智能体) 决策者,含策略 π,选动作
Environment(环境) Agent 外部的一切,含状态转移与奖励规则
State(状态) 对世界某时刻的充分描述 s ∈ S
Action(动作) Agent 可执行的选择 a ∈ A
Reward(奖励) 环境反馈的标量信号 r,定义「好坏」

交互循环(每步 t):

  1. Agent 观测 S_t(或观测 O_t)
  2. 选 A_t ~ π(·|S_t)
  3. 环境执行:S_{t+1} ~ P(·|S_t,A_t),给出 R_{t+1}
  4. Agent 用 (S_t,A_t,R_{t+1},S_{t+1}) 更新

注意:奖励是人为设计的优化目标,不等于真实目标;错误奖励导致 reward hacking。详见 强化学习入门

常见误区

⚠️ 常见踩坑

把环境当成「数据集」;奖励与回报(累积奖励)混淆;忽略 Agent 边界如何划定(多 Agent 系统)。

追问

追问 1状态和观测有何区别?

状态 s 是环境的完整描述(MDP);观测 o 是智能体实际感知,可能不完整(POMDP)。如机器人摄像头像素是观测,真实位姿是状态。

追问 2动作空间有哪些类型?

离散(上下左右)、连续(转向角、油门)、混合、分层(高层选子目标、低层执行)。算法选型依赖动作空间类型。

追问 3稀疏奖励如何处理?

奖励塑形、好奇心探索、模仿学习初始化、HER(目标重标记)、课程学习逐步增加难度。需警惕塑形改变最优策略。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。