大语言模型2026-05-14 04:07·arXiv

arXiv 最新研究:AlphaGRPO 解锁 UMMs 自反射多模态生成能力

arXiv 最新论文提出 AlphaGRPO 框架,将 GRPO 应用于 AR-Diffusion 统一多模态模型,首次实现了自反射式多模态生成。该框架通过分解式可验证奖励机制,让模型能在生成过程中自我评估和调整。

AlphaGRPO:自反射多模态生成的突破

2026 年 5 月 12 日,arXiv 发布 AlphaGRPO 论文。

技术亮点

  • GRPO 应用于 UMMs:将群体相对策略优化扩展到统一多模态模型
  • 自反射生成:模型可在生成过程中自我评估和调整
  • 分解式可验证奖励:将复杂奖励分解为可验证的子奖励

同期重要论文

  • KV-Fold:无需训练的长上下文推理 KV 缓存优化方案
  • Reward Hacking 研究:揭示基于规则强化学习中的奖励黑客问题
  • ToolCUA:GUI Agent 工具调用路径编排优化

来源: arXiv
链接: https://arxiv.org/abs/2605.12495