开源项目昨天·NVIDIA NeMo + MarkTechPost + arXiv

NVIDIA Polar:GRPO 训练框架让 Codex/Claude Code 编码能力大幅提升

NVIDIA 发布 Polar——面向 GRPO 训练的 Token 忠实 Rollout 框架,在 Codex、Claude Code、Qwen Code 等编码 Agent 上验证。Qwen3.5-4B 在 SWE-bench Verified 上从 3.8% 提升至 26.4%(+22.6 分),Pi 从 34.2% 提升至 40.4%。

Polar:让编码 Agent 更聪明

2026 年 5 月底,NVIDIA 开源了 Polar 框架。

GRPO 训练效果

  • Codex:3.8% → 26.4%(+22.6 分)
  • Claude Code:29.8% → 34.6%(+4.8 分)
  • Qwen Code:34.6% → 35.2%(+0.6 分)
  • Pi:34.2% → 40.4%(+6.2 分)

技术架构

  • Token-Faithful Rollout 框架
  • 支持多种 Agent Harness
  • 已发布研究论文 arXiv:2605.24220
  • 开源仓库:NVIDIA-NeMo/ProRL-Agent-Server

来源: NVIDIA NeMo + MarkTechPost + arXiv
链接: https://arxiv.org/pdf/2605.24220