大语言模型2026-05-14 04:07·arXiv

arXiv 最新研究：AlphaGRPO 解锁 UMMs 自反射多模态生成能力

arXiv 最新论文提出 AlphaGRPO 框架，将 GRPO 应用于 AR-Diffusion 统一多模态模型，首次实现了自反射式多模态生成。该框架通过分解式可验证奖励机制，让模型能在生成过程中自我评估和调整。

AlphaGRPO：自反射多模态生成的突破

2026 年 5 月 12 日，arXiv 发布 AlphaGRPO 论文。

来源： arXiv
链接： https://arxiv.org/abs/2605.12495

📰 原始来源

← 上一篇

Anthropic 发布金融服务 AI 代理套件：10 款新 Cowork + Claude Code 插件

Google 发布 Googlebook：全新「AI 优先笔记本电脑」品类，Gemini 深度集成到硬件层