Polar:让编码 Agent 更聪明
2026 年 5 月底,NVIDIA 开源了 Polar 框架。
GRPO 训练效果
- Codex:3.8% → 26.4%(+22.6 分)
- Claude Code:29.8% → 34.6%(+4.8 分)
- Qwen Code:34.6% → 35.2%(+0.6 分)
- Pi:34.2% → 40.4%(+6.2 分)
技术架构
- Token-Faithful Rollout 框架
- 支持多种 Agent Harness
- 已发布研究论文 arXiv:2605.24220
- 开源仓库:NVIDIA-NeMo/ProRL-Agent-Server
来源: NVIDIA NeMo + MarkTechPost + arXiv
链接: https://arxiv.org/pdf/2605.24220