GRPO 等强化学习对齐方法相比 PPO 有何改进？

Question 1

Accepted Answer

GRPO 是什么 组相对策略优化（Group Relative Policy Optimization）。对同一个 prompt 采样一组（如 8/16 个）回答，用奖励模型给每个打分，再用组内得分的相对高低（减均值除标准差）作为每个回答的优势，不再单独训练价值网络来估计基线。 相比 PPO 的改进 PPO 需要一个与策略模型同量级的 critic（价值网络）来估计状态价值作为基线，既占显存又难调。GRPO 直接用「组内相对奖励」当基线，省掉整个 critic： - 显存与算力大幅下降（少维护一个大模型）。 - 训练更稳定、实现更简单，更适合超大模型的推理对齐。 DeepSeek-R1 等推理模型即用 GRPO 做 RL。两者都保留 PPO 的 clip 目标和对参考模型的 KL 约束，防止策略更新过猛而漂移。

Question 2

GRPO 去掉 value 网络后，优势（advantage）怎么算？

Accepted Answer

用组内奖励做标准化：对同一 prompt 的 N 个回答，每个的优势约等于 (该回答奖励 - 组内均值) / 组内标准差。组均值充当基线，降低梯度方差。

Question 3

为什么 GRPO 特别适合推理任务？

Accepted Answer

推理任务常有可验证奖励（答案对错、单测通过），无需精细的逐 token 价值估计；多次采样天然能拉开正确与错误轨迹的相对差距，正好契合组内相对优势的思路。

GRPO 等强化学习对齐方法相比 PPO 有何改进？

核心要点

标准回答

常见误区

追问

延伸学习