MiroEval 与 ViGoR-Bench：AI Agent 评测的范式转变

引言：Agent 评测的困境

如果说 2025 年是 AI Agent 的爆发之年，那么 2026 年就是 Agent 评测的觉醒之年。当 Agent 开始进入医疗诊断、法律分析、金融决策等高风险场景时，一个核心问题变得不容忽视：我们如何确定一个 Agent 真的懂，而不是在表演？

传统 LLM 评测已经够复杂了——开放式输出、数据污染、Goodhart 定律。但 Agent 评测的难度呈指数级上升：Agent 不是被动生成文本，而是在环境中主动执行多步骤任务。这意味着评测不仅要关注最终答案对不对，还要关注得出答案的过程是否合理。

2026 年 4 月，HuggingFace Daily Papers 涌现了大量 Agent 评测相关论文，其中 MiroEval、ViGoR-Bench 和 Act Wisely 三篇研究最具代表性。本文逐一解读。

MiroEval 的核心创新在于它同时评估 Agent 的研究过程（Process）和最终结果（Outcome）。

想象两个学生回答同一道物理题。学生 A 蒙对了答案，但推理过程全是错的。学生 B 推理严谨，只是最后一步计算失误。传统评测只看答案，A 得满分，B 零分——这显然不合理。

MiroEval 将 Agent 的研究过程分为三个阶段：

这种三维评估框架让 Agent 的黑盒变得部分透明，为调试和优化提供了明确方向。

ViGoR-Bench 回答了一个被长期忽视的问题：图像生成模型是否真的理解它们在生成什么？

FID 分数高、人类偏好评分高，说明图像好看，但不代表模型理解。ViGoR-Bench 设计了四类视觉推理任务：

FID 分数领先的模型，在推理任务上不一定表现更好。图像质量和理解能力之间存在显著的鸿沟。

Act Wisely 研究的是 Agent 的元认知能力：知道什么时候该用工具，什么时候不该用。

缺乏元认知的 Agent 会过度依赖工具——即使简单问题也要调用搜索引擎，这不仅浪费 API 费用，还可能引入外部错误信息。

Act Wisely 让 Agent 在工具调用前进行自我评估：

结果：不必要的工具调用减少了 40%+，同时保持了高准确率。

从单一模态到多模态 — 早期评测针对纯文本任务。随着 GEMS、Unify-Agent 等多模态框架涌现，评测必须扩展到视觉-语言-动作的联合场景。
从结果导向到过程导向 — MiroEval 和 Act Wisely 共同强调：Agent 的行为过程与最终结果同等重要。这催生了对 Agent 决策轨迹的分析工具。
从静态基准到动态竞技场 — 固定评测基准很快会被过拟合。未来的评测将采用竞技场模式，让多个 Agent 在动态环境中竞争，通过胜负关系来排名。

Agent 评测不是学术研究的花架子，而是 AI 安全落地的基础设施。当 Agent 开始为医疗诊断提供建议、为法律案件进行分析、为金融决策提供依据时，它有多靠谱比它有多聪明重要一万倍。

MiroEval、ViGoR-Bench 和 Act Wisely 为我们指明了方向：评测需要多维度、重过程、动态化。期待更多研究加入这场 Agent 评测的范式革命。