Policy（策略）

策略就是智能体的『行为手册』，告诉它在每种情况下该怎么做

亦作、亦称：策略 · RL Policy · Agent Policy · 行为策略 · 目标策略

策略（Policy）是强化学习中智能体的决策核心，定义了从状态到动作的映射规则。理解策略的类型与优化方法，是掌握现代 RL 算法（从 Q-Learning 到 PPO）的基础。

概述

概述：什么是策略

策略是强化学习中智能体行为的核心抽象，将感知到的环境状态转化为具体行动决策。

策略（Policy）通常记作 π，形式上是一个从状态空间 S 到动作空间 A 的映射
确定性策略：a = μ(s)，每个状态对应唯一动作
随机性策略：π(a|s) = P(a|s)，输出动作的概率分布
RL 的目标即寻找最优策略 π*，使期望累积折扣回报 E[Σγ^t·r_t] 最大
策略可以是查表式（适合小型离散空间）或参数化（神经网络，适合大规模连续空间）

策略类型：确定性 vs 随机性

按输出形式，策略可分为两大类，各有适用场景。

确定性策略（Deterministic Policy）：a = μ(s)，同一状态永远执行同一动作，计算高效，适合已充分探索的环境
随机性策略（Stochastic Policy）：π(a|s)，同一状态以不同概率执行不同动作，有利于探索（Exploration）
随机策略细分：离散动作空间用分类策略（Categorical Policy），连续动作空间用高斯策略（Gaussian Policy）
行为策略（Behavior Policy）与目标策略（Target Policy）之分产生了 On-Policy 与 Off-Policy 的区别
Off-Policy 方法（如 Q-Learning、SAC）可复用旧数据，样本效率更高

工作原理：策略如何被优化

策略优化是 RL 的核心任务，主要有三条技术路线。

基于价值（Value-Based）：先学习状态-动作价值函数 Q(s,a)，再隐式提取策略（如 ε-贪心），代表算法 Q-Learning、DQN
基于策略（Policy-Based / Policy Gradient）：直接对策略参数 θ 求梯度 ∇J(θ)，代表算法 REINFORCE、PPO、TRPO
Actor-Critic：同时维护策略网络（Actor）和价值网络（Critic），用 Critic 降低梯度方差，代表算法 A3C、SAC、PPO
策略梯度定理（Policy Gradient Theorem）是基于策略方法的理论基础，由 Sutton 等人于 1999 年证明
现代 LLM 对齐（RLHF）中，语言模型本身即被视为一个策略，由 PPO 等算法优化

应用场景

策略在多个 AI 领域有核心地位，远不局限于游戏控制。

游戏 AI：AlphaGo/AlphaZero 用蒙特卡洛树搜索结合策略网络击败人类棋手
机器人控制：连续动作空间中用高斯策略控制机械臂关节角度
自动驾驶：智能体在复杂交通状态下学习驾驶策略
推荐系统：将用户状态映射到推荐动作，优化长期点击或留存
大模型对齐（RLHF）：语言模型作为策略，通过人类反馈奖励信号由 PPO 优化输出质量
多智能体：多个 Agent 各持一个策略，联合探索纳什均衡或协作目标

策略 vs 价值函数：区别与联系

策略与价值函数（Value Function）是 RL 的两大核心概念，常被混淆。

价值函数 V(s) 或 Q(s,a) 评估状态/动作的好坏，是对未来回报的预测；策略 π(a|s) 是决策规则，直接给出行动
价值函数是手段，策略是目的：Value-Based 方法用价值函数间接导出策略
Policy-Based 方法无需显式维护价值函数，但梯度方差大
Actor-Critic 结合两者：Actor 是策略，Critic 是价值函数，互相促进
最优策略 π* 与最优价值函数 V*/Q* 通过 Bellman 最优方程紧密关联

局限与常见误区

理解策略时有若干重要的局限和认知误区需要注意。

样本效率低：Policy Gradient 方法通常需要大量交互样本才能收敛，On-Policy 方法尤甚
局部最优：策略梯度易陷入局部最优，尤其在奖励稀疏时
误区：策略 = 规则集：策略是连续可微的参数化函数，不是 if-else 规则
误区：随机策略一定优于确定性策略：确定性策略在充分探索后往往更高效（如 DDPG 使用确定性策略）
策略崩溃（Policy Collapse）：更新步长过大导致性能骤降，TRPO/PPO 通过约束更新幅度缓解
分布偏移：离线数据训练的策略在部署时面临 Out-of-Distribution 状态，需谨慎处理

发展脉络

策略概念随强化学习理论的演进而不断深化。

1950s：动态规划（Bellman）奠定最优策略理论基础
1980s：Sutton、Barto 等系统化 RL 框架，Actor-Critic 架构诞生，策略概念正式形成
1992：Williams 提出 REINFORCE，确立策略梯度算法基础
1999：Sutton 等证明策略梯度定理（Policy Gradient Theorem）
2013-2015：DQN 崛起（Value-Based），随后 TRPO/PPO 将 Policy-Based 推向实用
2018：SAC（Soft Actor-Critic）引入最大熵框架，随机策略在连续控制中表现优异
2022 至今：RLHF 将策略优化带入大语言模型对齐，PPO 成为 ChatGPT 等系统的核心组件

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「策略就是智能体的『行为手册』，告诉它在每种情况下该怎么做」
「确定性策略好比固定剧本，随机性策略好比带概率的骰子，后者更有利于探索」
「很多人以为策略就是规则集，其实它是状态到动作的数学映射，可以是神经网络」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Policy」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。