MMLU（大规模多任务语言理解基准）

就是给 AI 出一套涵盖各学科的考试题，看它能答对多少

亦作、亦称：大规模多任务语言理解基准 · Massive Multitask Language Understanding · 大规模多任务语言理解

MMLU 是覆盖 57 个学科、共 15,908 道选择题的大语言模型知识评测基准，由 Hendrycks 等人于 2020 年提出。它是衡量 LLM 通识推理能力的行业标准，也是推动更难评测体系（MMLU-Pro 等）诞生的重要里程碑。

概述

MMLU 是目前被引用最广泛的大语言模型知识评测基准之一。

发布时间：2020 年 9 月，Dan Hendrycks 等人在加州大学伯克利分校发布
规模：57 个学科，15,908 道四选一选择题
目标：测量模型在人类知识体系中的广度与深度，弥补 GLUE 等早期基准过于简单的不足
参照标准：以人类专家平均约 89.8% 的正确率作为上限基线
影响力：截至 2024 年 7 月，数据集下载量超过 1 亿次

工作原理

MMLU 采用标准化的多项选择评测方式，流程简洁且可复现。

题目格式：每题给出问题 + 四个选项（A/B/C/D），模型须输出正确选项字母
评测设置：通常采用 5-shot 方式，即在提示中给出 5 道示例题后让模型作答
评分指标：以各题正确率（Accuracy）为主要指标，可按学科分组统计
分类体系：57 个学科归入 STEM、人文、社会科学、其他四大类别，便于分析模型的能力短板
无需微调：MMLU 面向零/少样本评测，不要求对模型进行任务专项训练

变体与延伸

MMLU 的广泛应用也促使社区不断推出更严格或更专业的衍生版本。

MMLU-Pro：将选项扩展至 10 个并强化推理难度，减少猜题效应，更好区分顶级模型
MMLU-Redux：对原始题库进行人工重新审核，修正标注错误，提升题目质量
MMLU-CF：「无污染」版本，旨在排除训练数据泄漏对评分的干扰
MMMLU：多语言扩展版，覆盖多种语言，用于评估模型的跨语言泛化能力
C-MMLU：针对中文知识与文化的本地化版本

应用场景

MMLU 被广泛用于模型发布报告、学术研究及工程决策的多个环节。

模型发布报告：GPT-4、Claude、Llama 等主流模型均在技术报告中报告 MMLU 分数作为能力基线
模型选型参考：工程团队用 MMLU 快速横向对比不同规模/系列模型的知识覆盖能力
学术研究基线：新方法论文通常在 MMLU 上汇报结果，便于与历史工作对比
排行榜竞争：Hugging Face Open LLM Leaderboard 等平台长期将 MMLU 列为核心评测项目
能力诊断：通过分学科得分可定位模型在法律、医学、数学等专业领域的能力短板

与相邻评测基准的区别

理解 MMLU 与其他主流基准的差异有助于合理选择评测方案。

vs GLUE/SuperGLUE：GLUE 侧重语言理解的基础 NLP 任务（情感分析、推断等），MMLU 侧重跨学科知识问答，难度更高、覆盖更广
vs HumanEval：HumanEval 专注代码生成能力，MMLU 专注通识知识，二者互补
vs BIG-Bench：BIG-Bench 题目更多样且包含开放生成任务，MMLU 格式统一（选择题），更易标准化对比
vs HELM：HELM 是多维度评测框架，MMLU 是其核心数据集之一，HELM 在 MMLU 基础上增加了公平性、鲁棒性等维度的评估

局限与误区

MMLU 虽然影响力巨大，但也存在若干值得注意的局限性。

题库错误：2024 年人工审核发现约 6.5% 的题目存在标注错误，实际最高可达分数远低于 100%
基准饱和：顶级模型分数已聚集在 86–89%，难以区分能力差异，正在失去区分度
数据污染：部分模型的预训练语料可能包含 MMLU 题目，导致分数虚高（即 数据泄漏 问题）
仅测静态知识：选择题格式无法评估推理链、开放生成、多步骤问题解决等能力
英语为主：原版以英语为主，对非英语模型存在语言偏差，跨语言评测需依赖 MMMLU 等扩展版

发展脉络

MMLU 的演进反映了大语言模型评测体系从单一到多元的发展趋势。

2020 年 9 月：Hendrycks 等人发布原始 MMLU 论文（arXiv:2009.03300），设立通识知识评测新标准
2021–2022 年：GPT-3、Codex 等早期大模型在 MMLU 上得分普遍低于 60%，基准有效区分模型能力
2023 年：GPT-4 报告 MMLU 约 86.4%，接近人类专家水平，标志评测饱和问题开始显现
2024 年上半年：多项研究（「Are We Done with MMLU?」）正式指出题库错误与饱和问题；MMLU-Pro 发布以应对挑战
2024 年至今：社区重心向 MMLU-Pro、MMLU-Redux、HELM 等更严格评测体系迁移

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是给 AI 出一套涵盖各学科的考试题，看它能答对多少」
「相当于让大模型参加一场覆盖 57 个科目的综合知识竞赛」
「现在顶级模型已经快考满分了，所以更难的 MMLU-Pro 才开始流行」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「MMLU」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。