稀疏到稠密奖励:LLM 后训练的新原则
2026 年 5 月,arXiv 发布了一项关于语言模型后训练的重要研究。
核心发现
- 奖励密度原则:稀疏序列级奖励适合训练探索能力强的模型,稠密 token 级教师监督适合将行为压缩到更小模型
- 上游发现 + 下游压缩:在最强模型上使用稀缺标注数据进行发现,然后将行为作为稠密监督转移到部署模型
- 桥接机制:前向 KL 热身 + OPD 学生 rollouts 是最强策略
实验验证
- 在 Qwen3 和 Llama 模型上验证数学推理任务
- 桥接后 GRPO 从 75.4% 提升至 78.5%(MATH 基准)
- 比直接 GRPO 在部署学生上表现更优
实践价值
对于有限标注资源的团队,这一原则可以显著提升后训练效率,避免将稀缺数据浪费在未准备好的策略上。
来源: arXiv
链接: https://arxiv.org/abs/2605.12483v1