GRPO
「DeepSeek 用的 RL 算法」
亦作、亦称:Group Relative Policy Optimization
Group Relative Policy Optimization,以组内相对优势估计替代 critic 网络,降低 RLHF 类训练开销,DeepSeek-R1 等推理模型采用。 GRPO 用组内相对比较降低 RL 对齐成本,是 DeepSeek-R1 等推理模型训练链路上的关键一环。
工作原理
对同一 prompt 采样 G 条回复,以组内平均奖励为基线计算相对优势,省去独立 critic 网络。结合 KL 惩罚约束策略偏离参考模型,常与 SFT 冷启动 + 规则/模型奖励配合,用于数学、代码等可验证任务。
应用场景
推理模型 RL 训练、指令遵循优化、减少 RLHF 工程复杂度。适合奖励信号可批量计算、无需精细 per-token value 估计的场景。
局限与误区
奖励设计仍决定上限;组大小与采样温度影响方差。不等同于「免标注」——仍需高质量 SFT 与奖励函数,且开放域对话的 RL 仍具挑战。
发展脉络
DeepSeek 团队在 2024–2025 年公开 GRPO 与 R1 训练细节,引发开源社区复现潮;与 PPO、DPO、KTO 等构成当代对齐工具箱。
人们怎么说
日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。
- 「DeepSeek 用的 RL 算法」
- 「不用 critic 的 PPO 变体」
- 「R1 训练里那个 GRPO」
参见
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。