← 首页/AI 资讯

大语言模型2026-05-13 12:06·arXiv

稀疏到稠密奖励原则：语言模型后训练的新方法论

arXiv 新论文提出稀疏奖励与稠密奖励的统一框架：稀疏序列级奖励用于探索发现，稠密 token 级教师监督用于行为压缩，为 LLM 后训练提供了更高效的资源配置策略。

稀疏到稠密奖励：LLM 后训练的新原则

2026 年 5 月，arXiv 发布了一项关于语言模型后训练的重要研究。

核心发现

奖励密度原则：稀疏序列级奖励适合训练探索能力强的模型，稠密 token 级教师监督适合将行为压缩到更小模型
上游发现 + 下游压缩：在最强模型上使用稀缺标注数据进行发现，然后将行为作为稠密监督转移到部署模型
桥接机制：前向 KL 热身 + OPD 学生 rollouts 是最强策略

实验验证

在 Qwen3 和 Llama 模型上验证数学推理任务
桥接后 GRPO 从 75.4% 提升至 78.5%（MATH 基准）
比直接 GRPO 在部署学生上表现更优

实践价值

对于有限标注资源的团队，这一原则可以显著提升后训练效率，避免将稀缺数据浪费在未准备好的策略上。

来源： arXiv
链接： https://arxiv.org/abs/2605.12483v1

📰 原始来源

https://arxiv.org/abs/2605.12483v1

← 上一篇

Anthropic 与 SpaceX 深化 Colossus 算力合作，AI 基础设施竞争升级

下一篇 →

GitHub AI Agent 生态爆发：Agent 工具周下载量激增，开源社区主导

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法