大语言模型2026-05-13 12:06·arXiv

稀疏到稠密奖励原则:语言模型后训练的新方法论

arXiv 新论文提出稀疏奖励与稠密奖励的统一框架:稀疏序列级奖励用于探索发现,稠密 token 级教师监督用于行为压缩,为 LLM 后训练提供了更高效的资源配置策略。

稀疏到稠密奖励:LLM 后训练的新原则

2026 年 5 月,arXiv 发布了一项关于语言模型后训练的重要研究。

核心发现

  • 奖励密度原则:稀疏序列级奖励适合训练探索能力强的模型,稠密 token 级教师监督适合将行为压缩到更小模型
  • 上游发现 + 下游压缩:在最强模型上使用稀缺标注数据进行发现,然后将行为作为稠密监督转移到部署模型
  • 桥接机制:前向 KL 热身 + OPD 学生 rollouts 是最强策略

实验验证

  • 在 Qwen3 和 Llama 模型上验证数学推理任务
  • 桥接后 GRPO 从 75.4% 提升至 78.5%(MATH 基准)
  • 比直接 GRPO 在部署学生上表现更优

实践价值

对于有限标注资源的团队,这一原则可以显著提升后训练效率,避免将稀缺数据浪费在未准备好的策略上。

来源: arXiv
链接: https://arxiv.org/abs/2605.12483v1