Policy(策略)
策略就是智能体的『行为手册』,告诉它在每种情况下该怎么做
亦作、亦称:策略 · RL Policy · Agent Policy · 行为策略 · 目标策略
策略(Policy)是强化学习中智能体的决策核心,定义了从状态到动作的映射规则。理解策略的类型与优化方法,是掌握现代 RL 算法(从 Q-Learning 到 PPO)的基础。
概述
策略(Policy)是强化学习中智能体的决策核心,定义了从状态到动作的映射规则。理解策略的类型与优化方法,是掌握现代 RL 算法(从 Q-Learning 到 PPO)的基础。
概述:什么是策略
策略是强化学习中智能体行为的核心抽象,将感知到的环境状态转化为具体行动决策。
- 策略(Policy)通常记作 π,形式上是一个从状态空间 S 到动作空间 A 的映射
- 确定性策略:a = μ(s),每个状态对应唯一动作
- 随机性策略:π(a|s) = P(a|s),输出动作的概率分布
- RL 的目标即寻找最优策略 π*,使期望累积折扣回报 E[Σγ^t·r_t] 最大
- 策略可以是查表式(适合小型离散空间)或参数化(神经网络,适合大规模连续空间)
策略类型:确定性 vs 随机性
按输出形式,策略可分为两大类,各有适用场景。
- 确定性策略(Deterministic Policy):a = μ(s),同一状态永远执行同一动作,计算高效,适合已充分探索的环境
- 随机性策略(Stochastic Policy):π(a|s),同一状态以不同概率执行不同动作,有利于探索(Exploration)
- 随机策略细分:离散动作空间用分类策略(Categorical Policy),连续动作空间用高斯策略(Gaussian Policy)
- 行为策略(Behavior Policy)与目标策略(Target Policy)之分产生了 On-Policy 与 Off-Policy 的区别
- Off-Policy 方法(如 Q-Learning、SAC)可复用旧数据,样本效率更高
工作原理:策略如何被优化
策略优化是 RL 的核心任务,主要有三条技术路线。
- 基于价值(Value-Based):先学习状态-动作价值函数 Q(s,a),再隐式提取策略(如 ε-贪心),代表算法 Q-Learning、DQN
- 基于策略(Policy-Based / Policy Gradient):直接对策略参数 θ 求梯度 ∇J(θ),代表算法 REINFORCE、PPO、TRPO
- Actor-Critic:同时维护策略网络(Actor)和价值网络(Critic),用 Critic 降低梯度方差,代表算法 A3C、SAC、PPO
- 策略梯度定理(Policy Gradient Theorem)是基于策略方法的理论基础,由 Sutton 等人于 1999 年证明
- 现代 LLM 对齐(RLHF)中,语言模型本身即被视为一个策略,由 PPO 等算法优化
应用场景
策略在多个 AI 领域有核心地位,远不局限于游戏控制。
- 游戏 AI:AlphaGo/AlphaZero 用蒙特卡洛树搜索结合策略网络击败人类棋手
- 机器人控制:连续动作空间中用高斯策略控制机械臂关节角度
- 自动驾驶:智能体在复杂交通状态下学习驾驶策略
- 推荐系统:将用户状态映射到推荐动作,优化长期点击或留存
- 大模型对齐(RLHF):语言模型作为策略,通过人类反馈奖励信号由 PPO 优化输出质量
- 多智能体:多个 Agent 各持一个策略,联合探索纳什均衡或协作目标
策略 vs 价值函数:区别与联系
策略与价值函数(Value Function)是 RL 的两大核心概念,常被混淆。
- 价值函数 V(s) 或 Q(s,a) 评估状态/动作的好坏,是对未来回报的预测;策略 π(a|s) 是决策规则,直接给出行动
- 价值函数是手段,策略是目的:Value-Based 方法用价值函数间接导出策略
- Policy-Based 方法无需显式维护价值函数,但梯度方差大
- Actor-Critic 结合两者:Actor 是策略,Critic 是价值函数,互相促进
- 最优策略 π* 与最优价值函数 V*/Q* 通过 Bellman 最优方程紧密关联
局限与常见误区
理解策略时有若干重要的局限和认知误区需要注意。
- 样本效率低:Policy Gradient 方法通常需要大量交互样本才能收敛,On-Policy 方法尤甚
- 局部最优:策略梯度易陷入局部最优,尤其在奖励稀疏时
- 误区:策略 = 规则集:策略是连续可微的参数化函数,不是 if-else 规则
- 误区:随机策略一定优于确定性策略:确定性策略在充分探索后往往更高效(如 DDPG 使用确定性策略)
- 策略崩溃(Policy Collapse):更新步长过大导致性能骤降,TRPO/PPO 通过约束更新幅度缓解
- 分布偏移:离线数据训练的策略在部署时面临 Out-of-Distribution 状态,需谨慎处理
发展脉络
策略概念随强化学习理论的演进而不断深化。
- 1950s:动态规划(Bellman)奠定最优策略理论基础
- 1980s:Sutton、Barto 等系统化 RL 框架,Actor-Critic 架构诞生,策略概念正式形成
- 1992:Williams 提出 REINFORCE,确立策略梯度算法基础
- 1999:Sutton 等证明策略梯度定理(Policy Gradient Theorem)
- 2013-2015:DQN 崛起(Value-Based),随后 TRPO/PPO 将 Policy-Based 推向实用
- 2018:SAC(Soft Actor-Critic)引入最大熵框架,随机策略在连续控制中表现优异
- 2022 至今:RLHF 将策略优化带入大语言模型对齐,PPO 成为 ChatGPT 等系统的核心组件
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「策略就是智能体的『行为手册』,告诉它在每种情况下该怎么做」
- 「确定性策略好比固定剧本,随机性策略好比带概率的骰子,后者更有利于探索」
- 「很多人以为策略就是规则集,其实它是状态到动作的数学映射,可以是神经网络」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「Policy」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。