强化学习中智能体、环境、状态、动作与奖励分别指什么？

Question 1

Accepted Answer

五要素定义： 术语 含义 ------ ------ Agent（智能体） 决策者，含策略 π，选动作 Environment（环境） Agent 外部的一切，含状态转移与奖励规则 State（状态） 对世界某时刻的充分描述 s ∈ S Action（动作） Agent 可执行的选择 a ∈ A Reward（奖励） 环境反馈的标量信号 r，定义「好坏」 交互循环（每步 t）： 1. Agent 观测 S_t（或观测 O_t） 2. 选 A_t ~ π(· S_t) 3. 环境执行：S_{t+1} ~ P(· S_t,A_t)，给出 R_{t+1} 4. Agent 用 (S_t,A_t,R_{t+1},S_{t+1}) 更新 注意：奖励是人为设计的优化目标，不等于真实目标；错误奖励导致 reward hacking。详见 强化学习入门。

Question 2

状态和观测有何区别？

Accepted Answer

状态 s 是环境的完整描述（MDP）；观测 o 是智能体实际感知，可能不完整（POMDP）。如机器人摄像头像素是观测，真实位姿是状态。

Question 3

动作空间有哪些类型？

Accepted Answer

离散（上下左右）、连续（转向角、油门）、混合、分层（高层选子目标、低层执行）。算法选型依赖动作空间类型。

Question 4

稀疏奖励如何处理？

Accepted Answer

奖励塑形、好奇心探索、模仿学习初始化、HER（目标重标记）、课程学习逐步增加难度。需警惕塑形改变最优策略。

强化学习中智能体、环境、状态、动作与奖励分别指什么？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


术语	含义
Agent（智能体）	决策者，含策略 π，选动作
Environment（环境）	Agent 外部的一切，含状态转移与奖励规则
State（状态）	对世界某时刻的充分描述 s ∈ S
Action（动作）	Agent 可执行的选择 a ∈ A
Reward（奖励）	环境反馈的标量信号 r，定义「好坏」