GRPO

「DeepSeek 用的 RL 算法」

亦作、亦称:Group Relative Policy Optimization

Group Relative Policy Optimization,以组内相对优势估计替代 critic 网络,降低 RLHF 类训练开销,DeepSeek-R1 等推理模型采用。 GRPO 用组内相对比较降低 RL 对齐成本,是 DeepSeek-R1 等推理模型训练链路上的关键一环。

工作原理

对同一 prompt 采样 G 条回复,以组内平均奖励为基线计算相对优势,省去独立 critic 网络。结合 KL 惩罚约束策略偏离参考模型,常与 SFT 冷启动 + 规则/模型奖励配合,用于数学、代码等可验证任务。

应用场景

推理模型 RL 训练、指令遵循优化、减少 RLHF 工程复杂度。适合奖励信号可批量计算、无需精细 per-token value 估计的场景。

局限与误区

奖励设计仍决定上限;组大小与采样温度影响方差。不等同于「免标注」——仍需高质量 SFT 与奖励函数,且开放域对话的 RL 仍具挑战。

发展脉络

DeepSeek 团队在 2024–2025 年公开 GRPO 与 R1 训练细节,引发开源社区复现潮;与 PPO、DPO、KTO 等构成当代对齐工具箱。

人们怎么说

日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。

  • 「DeepSeek 用的 RL 算法」
  • 「不用 critic 的 PPO 变体」
  • 「R1 训练里那个 GRPO」

参见

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    RLHF(一):基于人类反馈的强化学习

    从奖励模型到 PPO 优化,理解大模型对齐的核心技术

  2. 2

    LLM 系统性泛化:为什么模型会「举一反三」却「无法触类旁通」

    深度解读 2026 年最新研究:LLM 在空间迁移上表现优异但在长度缩放上一致失败——揭示递归不稳定性的本质,以及数据覆盖、强化学习、推理时缩放各自的能力边界

  3. 3

    LLM 推理加速实战:从 KV Cache 优化到推测解码

    系统梳理 LLM 推理加速的核心技术——KV Cache 管理、PagedAttention、推测解码、连续批处理,掌握生产环境推理优化的决策框架和工具链