核心要点

  • 能讲清 GRPO 的核心:对同一 prompt 采样一组回答,用组内奖励的相对高低(标准化优势)做基线,免去单独的 value 网络

  • 能对比 PPO:PPO 需训练与策略同规模的 critic 估计基线,显存和工程复杂度高;GRPO 用组内统计替代 critic

  • 能说出收益:省一份大模型显存、训练更稳更省、实现更简单,适合大模型推理对齐(DeepSeek-R1 即用 GRPO)

  • 能说出共性:两者都保留 PPO 的裁剪(clip)目标与 KL 约束防止策略偏离参考模型太远

标准回答

GRPO 是什么

组相对策略优化(Group Relative Policy Optimization)。对同一个 prompt 采样一组(如 8/16 个)回答,用奖励模型给每个打分,再用组内得分的相对高低(减均值除标准差)作为每个回答的优势,不再单独训练价值网络来估计基线。

相比 PPO 的改进

PPO 需要一个与策略模型同量级的 critic(价值网络)来估计状态价值作为基线,既占显存又难调。GRPO 直接用「组内相对奖励」当基线,省掉整个 critic:

  • 显存与算力大幅下降(少维护一个大模型)。
  • 训练更稳定、实现更简单,更适合超大模型的推理对齐。

DeepSeek-R1 等推理模型即用 GRPO 做 RL。两者都保留 PPO 的 clip 目标和对参考模型的 KL 约束,防止策略更新过猛而漂移。

常见误区

⚠️ 常见踩坑

别说「GRPO 不需要奖励信号」——它仍需奖励模型或可验证奖励给回答打分,只是省掉了价值网络(critic)这一基线估计器;也别忽略它依赖「一组采样」,组太小时相对优势估计噪声大。

追问

追问 1GRPO 去掉 value 网络后,优势(advantage)怎么算?

用组内奖励做标准化:对同一 prompt 的 N 个回答,每个的优势约等于 (该回答奖励 - 组内均值) / 组内标准差。组均值充当基线,降低梯度方差。

追问 2为什么 GRPO 特别适合推理任务?

推理任务常有可验证奖励(答案对错、单测通过),无需精细的逐 token 价值估计;多次采样天然能拉开正确与错误轨迹的相对差距,正好契合组内相对优势的思路。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。