GRPO（Group Relative Policy Optimization）

DeepSeek 用的 RL 算法

亦作、亦称：Group Relative Policy Optimization · 组相对策略优化

DeepSeek 团队于 2024 年提出的强化学习对齐算法，通过对每个 prompt 采样一组响应并使用组内相对奖励替代绝对价值估计，消除了 PPO 中对价值网络（critic）的需求，将训练成本降低约 40%，是 DeepSeek-R1 推理模型的核心训练算法。

动机：PPO 的工程挑战

PPO 是在线对齐的基石，但存在三大工程挑战：

价值网络训练：需要额外训练一个 critic 模型估计状态价值，计算成本翻倍。
超参数敏感：裁剪系数、折扣因子、GAE λ 等参数需要精细调优，不同任务间迁移性差。
奖励黑客：模型可能找到奖励模型的漏洞，获得高分但生成低质量内容。GRPO 的核心动机是：能否在不使用价值网络的情况下，保持 PPO 的对齐质量？答案是肯定的——通过组内相对奖励替代绝对价值估计。

GRPO 的算法流程：

采样：对每个 prompt x，使用当前策略采样 G 个响应 {y₁, y₂, ..., y_G}（通常 G=4-16）。
打分：使用奖励模型对每个响应计算奖励 {r₁, r₂, ..., r_G}。
归一化：计算组内归一化奖励 A_i = (r_i - mean(r)) / std(r)，作为每个响应的优势估计。
策略更新：使用 PPO 风格的裁剪目标函数更新策略，但用 A_i 替代 PPO 中价值网络输出的优势。GRPO 的关键数学洞察：组内归一化奖励是优势函数的无偏估计，因为它等价于在组内做 baseline 减法（减去均值）和尺度缩放（除以标准差）。这消除了对价值网络的需求，同时保留了策略梯度的收敛性保证。

GRPO 自 2024 年提出后迅速成为开源社区的主流选择。DeepSeek-R1（2024 年 2 月）是首个使用 GRPO 训练的推理模型，在数学和代码推理任务上达到与 OpenAI o1 相当的性能。

NVIDIA NeMo RL（2025）原生支持 GRPO，提供 FP8 混合精度训练和异步 RL 流水线。verl（2025）是开源社区广泛使用的 RL 训练框架，GRPO 是其默认算法之一。

2026 年，GRPO 已成为训练推理模型（Reasoning Models）的标准选择，在数学推理（MATH、GSM8K）、代码生成（HumanEval、MBPP）、科学问答（GPQA）等任务上，GRPO 训练的模型普遍优于 PPO 训练的模型，且训练成本降低 30-50%。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。