MMLU(大规模多任务语言理解基准)
就是给 AI 出一套涵盖各学科的考试题,看它能答对多少
亦作、亦称:大规模多任务语言理解基准 · Massive Multitask Language Understanding · 大规模多任务语言理解
MMLU 是覆盖 57 个学科、共 15,908 道选择题的大语言模型知识评测基准,由 Hendrycks 等人于 2020 年提出。它是衡量 LLM 通识推理能力的行业标准,也是推动更难评测体系(MMLU-Pro 等)诞生的重要里程碑。
概述
MMLU 是目前被引用最广泛的大语言模型知识评测基准之一。
- 发布时间:2020 年 9 月,Dan Hendrycks 等人在加州大学伯克利分校发布
- 规模:57 个学科,15,908 道四选一选择题
- 目标:测量模型在人类知识体系中的广度与深度,弥补 GLUE 等早期基准过于简单的不足
- 参照标准:以人类专家平均约 89.8% 的正确率作为上限基线
- 影响力:截至 2024 年 7 月,数据集下载量超过 1 亿次
工作原理
MMLU 采用标准化的多项选择评测方式,流程简洁且可复现。
- 题目格式:每题给出问题 + 四个选项(A/B/C/D),模型须输出正确选项字母
- 评测设置:通常采用 5-shot 方式,即在提示中给出 5 道示例题后让模型作答
- 评分指标:以各题正确率(Accuracy)为主要指标,可按学科分组统计
- 分类体系:57 个学科归入 STEM、人文、社会科学、其他四大类别,便于分析模型的能力短板
- 无需微调:MMLU 面向零/少样本评测,不要求对模型进行任务专项训练
变体与延伸
MMLU 的广泛应用也促使社区不断推出更严格或更专业的衍生版本。
- MMLU-Pro:将选项扩展至 10 个并强化推理难度,减少猜题效应,更好区分顶级模型
- MMLU-Redux:对原始题库进行人工重新审核,修正标注错误,提升题目质量
- MMLU-CF:「无污染」版本,旨在排除训练数据泄漏对评分的干扰
- MMMLU:多语言扩展版,覆盖多种语言,用于评估模型的跨语言泛化能力
- C-MMLU:针对中文知识与文化的本地化版本
应用场景
MMLU 被广泛用于模型发布报告、学术研究及工程决策的多个环节。
- 模型发布报告:GPT-4、Claude、Llama 等主流模型均在技术报告中报告 MMLU 分数作为能力基线
- 模型选型参考:工程团队用 MMLU 快速横向对比不同规模/系列模型的知识覆盖能力
- 学术研究基线:新方法论文通常在 MMLU 上汇报结果,便于与历史工作对比
- 排行榜竞争:Hugging Face Open LLM Leaderboard 等平台长期将 MMLU 列为核心评测项目
- 能力诊断:通过分学科得分可定位模型在法律、医学、数学等专业领域的能力短板
与相邻评测基准的区别
理解 MMLU 与其他主流基准的差异有助于合理选择评测方案。
- vs GLUE/SuperGLUE:GLUE 侧重语言理解的基础 NLP 任务(情感分析、推断等),MMLU 侧重跨学科知识问答,难度更高、覆盖更广
- vs HumanEval:HumanEval 专注代码生成能力,MMLU 专注通识知识,二者互补
- vs BIG-Bench:BIG-Bench 题目更多样且包含开放生成任务,MMLU 格式统一(选择题),更易标准化对比
- vs HELM:HELM 是多维度评测框架,MMLU 是其核心数据集之一,HELM 在 MMLU 基础上增加了公平性、鲁棒性等维度的评估
局限与误区
MMLU 虽然影响力巨大,但也存在若干值得注意的局限性。
- 题库错误:2024 年人工审核发现约 6.5% 的题目存在标注错误,实际最高可达分数远低于 100%
- 基准饱和:顶级模型分数已聚集在 86–89%,难以区分能力差异,正在失去区分度
- 数据污染:部分模型的预训练语料可能包含 MMLU 题目,导致分数虚高(即 数据泄漏 问题)
- 仅测静态知识:选择题格式无法评估推理链、开放生成、多步骤问题解决等能力
- 英语为主:原版以英语为主,对非英语模型存在语言偏差,跨语言评测需依赖 MMMLU 等扩展版
发展脉络
MMLU 的演进反映了大语言模型评测体系从单一到多元的发展趋势。
- 2020 年 9 月:Hendrycks 等人发布原始 MMLU 论文(arXiv:2009.03300),设立通识知识评测新标准
- 2021–2022 年:GPT-3、Codex 等早期大模型在 MMLU 上得分普遍低于 60%,基准有效区分模型能力
- 2023 年:GPT-4 报告 MMLU 约 86.4%,接近人类专家水平,标志评测饱和问题开始显现
- 2024 年上半年:多项研究(「Are We Done with MMLU?」)正式指出题库错误与饱和问题;MMLU-Pro 发布以应对挑战
- 2024 年至今:社区重心向 MMLU-Pro、MMLU-Redux、HELM 等更严格评测体系迁移
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是给 AI 出一套涵盖各学科的考试题,看它能答对多少」
- 「相当于让大模型参加一场覆盖 57 个科目的综合知识竞赛」
- 「现在顶级模型已经快考满分了,所以更难的 MMLU-Pro 才开始流行」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
LLM 评测:基准测试与对齐评估
从 MMLU 到 AlpacaEval 再到 Agent 评测体系,掌握 2026 年大语言模型的最新评估方法和前沿基准
- 2
大模型基准测试方法论:综合基准测试的科学评估
2026 年大模型进入基准测试泛滥时代。从 MMLU、GSM8K 到 Arena Hard,从 Leaderboard 刷分到真实能力评估,本文系统讲解 LLM 基准测试的完整方法论:测试集设计、评估维度、排行榜陷阱、科学评估框架以及开发者如何正确理解和使用基准测试结果。
- 3
LLM 评测体系:从 MMLU 到 LMSYS Arena
系统梳理大语言模型评测的核心基准、方法论、Goodhart 定律陷阱,以及如何设计科学可靠的模型评估体系
外部参考
维基百科:查看「MMLU」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。