Policy(策略)

策略就是智能体的『行为手册』,告诉它在每种情况下该怎么做

亦作、亦称:策略 · RL Policy · Agent Policy · 行为策略 · 目标策略

策略(Policy)是强化学习中智能体的决策核心,定义了从状态到动作的映射规则。理解策略的类型与优化方法,是掌握现代 RL 算法(从 Q-Learning 到 PPO)的基础。

概述

策略(Policy)是强化学习中智能体的决策核心,定义了从状态到动作的映射规则。理解策略的类型与优化方法,是掌握现代 RL 算法(从 Q-Learning 到 PPO)的基础。

概述:什么是策略

策略是强化学习中智能体行为的核心抽象,将感知到的环境状态转化为具体行动决策。

  • 策略(Policy)通常记作 π,形式上是一个从状态空间 S 到动作空间 A 的映射
  • 确定性策略:a = μ(s),每个状态对应唯一动作
  • 随机性策略:π(a|s) = P(a|s),输出动作的概率分布
  • RL 的目标即寻找最优策略 π*,使期望累积折扣回报 E[Σγ^t·r_t] 最大
  • 策略可以是查表式(适合小型离散空间)或参数化(神经网络,适合大规模连续空间)

策略类型:确定性 vs 随机性

按输出形式,策略可分为两大类,各有适用场景。

  • 确定性策略(Deterministic Policy):a = μ(s),同一状态永远执行同一动作,计算高效,适合已充分探索的环境
  • 随机性策略(Stochastic Policy):π(a|s),同一状态以不同概率执行不同动作,有利于探索(Exploration)
  • 随机策略细分:离散动作空间用分类策略(Categorical Policy),连续动作空间用高斯策略(Gaussian Policy)
  • 行为策略(Behavior Policy)与目标策略(Target Policy)之分产生了 On-Policy 与 Off-Policy 的区别
  • Off-Policy 方法(如 Q-LearningSAC)可复用旧数据,样本效率更高

工作原理:策略如何被优化

策略优化是 RL 的核心任务,主要有三条技术路线。

  • 基于价值(Value-Based):先学习状态-动作价值函数 Q(s,a),再隐式提取策略(如 ε-贪心),代表算法 Q-LearningDQN
  • 基于策略(Policy-Based / Policy Gradient):直接对策略参数 θ 求梯度 ∇J(θ),代表算法 REINFORCEPPOTRPO
  • Actor-Critic:同时维护策略网络(Actor)和价值网络(Critic),用 Critic 降低梯度方差,代表算法 A3CSACPPO
  • 策略梯度定理(Policy Gradient Theorem)是基于策略方法的理论基础,由 Sutton 等人于 1999 年证明
  • 现代 LLM 对齐(RLHF)中,语言模型本身即被视为一个策略,由 PPO 等算法优化

应用场景

策略在多个 AI 领域有核心地位,远不局限于游戏控制。

  • 游戏 AI:AlphaGo/AlphaZero 用蒙特卡洛树搜索结合策略网络击败人类棋手
  • 机器人控制:连续动作空间中用高斯策略控制机械臂关节角度
  • 自动驾驶:智能体在复杂交通状态下学习驾驶策略
  • 推荐系统:将用户状态映射到推荐动作,优化长期点击或留存
  • 大模型对齐(RLHF):语言模型作为策略,通过人类反馈奖励信号由 PPO 优化输出质量
  • 多智能体:多个 Agent 各持一个策略,联合探索纳什均衡或协作目标

策略 vs 价值函数:区别与联系

策略与价值函数(Value Function)是 RL 的两大核心概念,常被混淆。

  • 价值函数 V(s) 或 Q(s,a) 评估状态/动作的好坏,是对未来回报的预测;策略 π(a|s) 是决策规则,直接给出行动
  • 价值函数是手段,策略是目的:Value-Based 方法用价值函数间接导出策略
  • Policy-Based 方法无需显式维护价值函数,但梯度方差大
  • Actor-Critic 结合两者:Actor 是策略,Critic 是价值函数,互相促进
  • 最优策略 π* 与最优价值函数 V*/Q* 通过 Bellman 最优方程紧密关联

局限与常见误区

理解策略时有若干重要的局限和认知误区需要注意。

  • 样本效率低:Policy Gradient 方法通常需要大量交互样本才能收敛,On-Policy 方法尤甚
  • 局部最优:策略梯度易陷入局部最优,尤其在奖励稀疏时
  • 误区:策略 = 规则集:策略是连续可微的参数化函数,不是 if-else 规则
  • 误区:随机策略一定优于确定性策略:确定性策略在充分探索后往往更高效(如 DDPG 使用确定性策略)
  • 策略崩溃(Policy Collapse):更新步长过大导致性能骤降,TRPO/PPO 通过约束更新幅度缓解
  • 分布偏移:离线数据训练的策略在部署时面临 Out-of-Distribution 状态,需谨慎处理

发展脉络

策略概念随强化学习理论的演进而不断深化。

  • 1950s:动态规划(Bellman)奠定最优策略理论基础
  • 1980s:Sutton、Barto 等系统化 RL 框架,Actor-Critic 架构诞生,策略概念正式形成
  • 1992:Williams 提出 REINFORCE,确立策略梯度算法基础
  • 1999:Sutton 等证明策略梯度定理(Policy Gradient Theorem)
  • 2013-2015DQN 崛起(Value-Based),随后 TRPO/PPO 将 Policy-Based 推向实用
  • 2018SAC(Soft Actor-Critic)引入最大熵框架,随机策略在连续控制中表现优异
  • 2022 至今RLHF 将策略优化带入大语言模型对齐,PPO 成为 ChatGPT 等系统的核心组件

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「策略就是智能体的『行为手册』,告诉它在每种情况下该怎么做」
  • 「确定性策略好比固定剧本,随机性策略好比带概率的骰子,后者更有利于探索」
  • 「很多人以为策略就是规则集,其实它是状态到动作的数学映射,可以是神经网络」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    强化学习入门:MDP 与 Bellman 方程

    从马尔可夫决策过程到值迭代,理解强化学习的数学基础

  2. 2

    SAC:柔性 Actor-Critic

    从最大熵到自动温度调节,理解 Sample Efficient 的 Actor-Critic 算法

  3. 3

    模仿学习:从行为克隆到逆强化学习

    从专家示范中学习策略,深入理解行为克隆、DAgger、逆强化学习和 GAN 式模仿学习的原理与实战

外部参考

维基百科:查看「Policy」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。