PPO

RLHF 常用的 RL 算法

近端策略优化（Proximal Policy Optimization，PPO）是 OpenAI 于 2017 年提出的一种策略梯度强化学习算法，通过裁剪新旧策略概率比来约束每次更新的幅度，在训练稳定性与实现简洁性之间取得了出色的平衡。PPO 是当前大语言模型 RLHF 对齐训练中应用最广泛的强化学习算法之一。

概述

核心思想

PPO 属于「策略梯度」方法家族，核心解决的问题是：如何在不破坏旧策略的前提下，安全地向更好的策略迈出一步。

策略比值：定义 $r_t(\theta) = \pi_\theta(a_t|s_t) / \pi_{\theta_{\text{old}}}(a_t|s_t)$，衡量新旧策略在同一动作上的概率之比
裁剪目标函数（Clipped Objective）：将概率比约束在 $[1-\varepsilon,\ 1+\varepsilon]$ 区间，默认 $\varepsilon=0.2$，超出部分梯度被截断
保守取最小值：目标函数取裁剪版与未裁剪版的最小值，仅在有利且幅度可控时才更新策略
Actor-Critic 架构：通常结合价值网络（Critic）估计优势函数，Actor 输出动作分布，两者可共享或独立训练
多轮小批次更新：同一批采样数据可重复进行多轮梯度更新，显著提升样本利用率

与 TRPO 的关系

PPO 是 2015 年提出的信赖域策略优化（TRPO）的简化替代方案，二者目标相同但实现差异显著。

TRPO 思路：用 KL 散度硬性约束来保证策略单调改进，但需要计算 Hessian 矩阵和共轭梯度，实现复杂、计算代价高
PPO 的简化：用一阶梯度的裁剪技巧近似等效实现信赖域约束，无需二阶导数和约束求解器
性能对比：实验表明 PPO 在大多数基准任务上与 TRPO 性能持平甚至更优，且训练速度更快
工程优势：PPO 可直接用标准深度学习框架和 SGD 优化器实现，大规模神经网络场景适配更好
注意：PPO 的裁剪是启发式约束，不像 TRPO 有严格的单调改进理论保证

在 RLHF 中的应用

PPO 是经典 RLHF 三阶段流程（SFT → 奖励模型 → RL）中强化学习阶段的核心算法。

奖励信号来源：由独立训练的奖励模型（Reward Model）为 LLM 生成的回复打分，替代传统环境奖励
- KL 惩罚项：在奖励上叠加 $-\beta \cdot \text{KL}(\pi | \pi_{\text{ref}})$，防止语言模型偏离 SFT 参考策略，避免奖励黑客
-四模型并行：需要同时维护 Actor、Critic、奖励模型、参考策略四个模型，显存占用和工程复杂度高
- 代表应用： InstructGPT 和 ChatGPT 早期版本均以 PPO 为核心 RL 步骤，TRL、OpenRLHF 等开源框架将其列为首要支持算法

发展脉络

PPO 从策略梯度方法演化而来，近年因 LLM 对齐获得广泛应用。

2015：TRPO 由 Schulman 等人提出，奠定信赖域策略优化的理论基础
2017：PPO 由 OpenAI 的 Schulman 等人发表，以裁剪目标取代 TRPO 复杂约束，并在 OpenAI 内部成为默认 RL 算法
2018：PPO 应用于 OpenAI Five（Dota 2），验证其在超大规模复杂任务中的工程可行性
2022：InstructGPT 论文公开以 PPO 为核心的 RLHF 流程，PPO 进入 LLM 对齐主流视野
2023：DPO 提出无需在线 RL 的对齐替代方案，引发「PPO 是否必要」的广泛讨论
2024：GRPO（DeepSeek）等轻量替代落地，PPO 在资源受限场景的主导地位受到挑战，但在复杂奖励场景仍是主流

优势与局限

PPO 在实用性与训练稳定性之间找到了较好的平衡点，但也存在不可忽视的代价。

优势：实现简洁，只需一阶优化，兼容所有主流深度学习框架，远比 TRPO 易于工程落地
优势：训练稳定，裁剪机制有效防止灾难性策略崩溃，在连续/离散动作空间均表现可靠
局限：需要价值网络，LLM 场景下 Critic 规模与 Actor 同量级，资源消耗近乎翻倍
局限：样本效率有限，属于 on-policy 方法，历史经验数据无法直接复用
局限：超参敏感，裁剪阈值 $\varepsilon$、KL 系数 $\beta$、GAE 参数 $\lambda$ 相互耦合，需要大量调参

与近邻算法对比

PPO 在 LLM 对齐领域有多个常被对比的近邻算法。

PPO vs DPO 39： DPO（直接偏好优化）绕过奖励模型和 RL 循环，直接在偏好对上做监督微调，实现更轻量但无法处理在线奖励信号
-PPO vs GRPO 117： GRPO取消 Critic 网络，用组内相对奖励估计优势，显存开销更低，由 DeepSeek 在推理模型训练中验证
-PPO vs REINFORCE 199： REINFORCE 是最基础的策略梯度算法，梯度方差大、训练不稳定；PPO 通过 Critic 基线和 clip 机制显著改善了这两点

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「RLHF 常用的 RL 算法」
「强化学习术语」
「跟 PPO 是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「PPO」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

PPO

概述