评测基准（Benchmark）

模型考试分数

亦作、亦称：Benchmark

评测基准（Benchmark）是一套标准化的测试集合，用于在统一条件下横向对比不同 AI 模型的能力水平。它是当前大模型研究与选型中最主要的量化参考依据，但单一分数无法完整反映模型在真实业务中的表现。

概述

评测基准通过固定题库、统一评分规则，让不同模型在相同条件下「参加同一场考试」。

按能力维度划分，主流评测基准大致分为以下几类。

一个完整的 benchmark 评测流程包含数据、评分和报告三个环节。

评测分数被广泛引用，但也带来了若干系统性误解，需要警惕。

数据污染（contamination）：训练数据中若包含测试题目，模型会「记住答案」而非真正理解；实证研究发现泄漏比例从 1% 到 45% 不等，仅调整选项顺序就可让 MMLU 准确率下降逾 13%
古德哈特定律（Goodhart's Law）：「当一个指标变成优化目标，它就不再是好指标」；专门针对基准优化的模型往往在真实场景中表现平庸
饱和问题：顶级模型在 GSM8K、HumanEval 等早期基准上已接近满分，区分度下降，催生了更难的替代品
与业务脱节：benchmark 通常为封闭题，而真实场景是开放、上下文依赖的，高分模型不一定更「好用」
需结合人工评测：对话质量、指令遵循等主观能力，仍需人工标注或 Arena（如 LMSYS Chatbot Arena）众包对比来补充

评测基准常与其他评估手段混用，以下对比有助于厘清边界。

Benchmark vs 人工评测：前者可自动化、成本低、可复现；后者更贴近真实感受，但昂贵且难以标准化
Benchmark vs A/B 测试：A/B 测试在真实用户流量中比较，评估的是业务指标（如留存率），而 benchmark 评估的是模型能力指标
Benchmark vs 评估数据集（eval set）：eval set 通常指某项目内部的测试集；benchmark 特指公开、跨团队可复现的标准测试
Benchmark vs 排行榜（Leaderboard）：排行榜是展示 benchmark 结果的平台（如 Open LLM Leaderboard），两者是「考题」与「成绩单」的关系

随着模型能力快速提升，评测基准本身也在持续迭代演进。

2018：GLUE 发布，成为 NLP 时代第一个广泛使用的多任务综合基准，推动了 BERT 等模型的崛起
2019：SuperGLUE 因 GLUE 很快被饱和而推出，难度显著提升
2021：MMLU（Hendrycks 等）、HumanEval（OpenAI Chen 等）、GSM8K（OpenAI Cobbe 等）同年发布，共同奠定 GPT 时代的评测框架
2023：LMSYS Chatbot Arena 上线，引入基于 ELO 排名的人工众包对比，补充自动评分的不足
2024：GPQA（博士级科学题）、Humanity's Last Exam 等高难度基准相继出现，应对顶级模型的饱和问题
2025 至今：多模态基准（图像、视频、音频）与 Agent 评测基准成为新热点，静态题库向动态交互测试演进

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。