MMLU(大规模多任务语言理解基准)

就是给 AI 出一套涵盖各学科的考试题,看它能答对多少

亦作、亦称:大规模多任务语言理解基准 · Massive Multitask Language Understanding · 大规模多任务语言理解

MMLU 是覆盖 57 个学科、共 15,908 道选择题的大语言模型知识评测基准,由 Hendrycks 等人于 2020 年提出。它是衡量 LLM 通识推理能力的行业标准,也是推动更难评测体系(MMLU-Pro 等)诞生的重要里程碑。

概述

MMLU 是目前被引用最广泛的大语言模型知识评测基准之一。

  • 发布时间:2020 年 9 月,Dan Hendrycks 等人在加州大学伯克利分校发布
  • 规模:57 个学科,15,908 道四选一选择题
  • 目标:测量模型在人类知识体系中的广度与深度,弥补 GLUE 等早期基准过于简单的不足
  • 参照标准:以人类专家平均约 89.8% 的正确率作为上限基线
  • 影响力:截至 2024 年 7 月,数据集下载量超过 1 亿次

工作原理

MMLU 采用标准化的多项选择评测方式,流程简洁且可复现。

  • 题目格式:每题给出问题 + 四个选项(A/B/C/D),模型须输出正确选项字母
  • 评测设置:通常采用 5-shot 方式,即在提示中给出 5 道示例题后让模型作答
  • 评分指标:以各题正确率(Accuracy)为主要指标,可按学科分组统计
  • 分类体系:57 个学科归入 STEM、人文、社会科学、其他四大类别,便于分析模型的能力短板
  • 无需微调:MMLU 面向零/少样本评测,不要求对模型进行任务专项训练

变体与延伸

MMLU 的广泛应用也促使社区不断推出更严格或更专业的衍生版本。

  • MMLU-Pro:将选项扩展至 10 个并强化推理难度,减少猜题效应,更好区分顶级模型
  • MMLU-Redux:对原始题库进行人工重新审核,修正标注错误,提升题目质量
  • MMLU-CF:「无污染」版本,旨在排除训练数据泄漏对评分的干扰
  • MMMLU:多语言扩展版,覆盖多种语言,用于评估模型的跨语言泛化能力
  • C-MMLU:针对中文知识与文化的本地化版本

应用场景

MMLU 被广泛用于模型发布报告、学术研究及工程决策的多个环节。

  • 模型发布报告:GPT-4、Claude、Llama 等主流模型均在技术报告中报告 MMLU 分数作为能力基线
  • 模型选型参考:工程团队用 MMLU 快速横向对比不同规模/系列模型的知识覆盖能力
  • 学术研究基线:新方法论文通常在 MMLU 上汇报结果,便于与历史工作对比
  • 排行榜竞争:Hugging Face Open LLM Leaderboard 等平台长期将 MMLU 列为核心评测项目
  • 能力诊断:通过分学科得分可定位模型在法律、医学、数学等专业领域的能力短板

与相邻评测基准的区别

理解 MMLU 与其他主流基准的差异有助于合理选择评测方案。

  • vs GLUE/SuperGLUE:GLUE 侧重语言理解的基础 NLP 任务(情感分析、推断等),MMLU 侧重跨学科知识问答,难度更高、覆盖更广
  • vs HumanEval:HumanEval 专注代码生成能力,MMLU 专注通识知识,二者互补
  • vs BIG-Bench:BIG-Bench 题目更多样且包含开放生成任务,MMLU 格式统一(选择题),更易标准化对比
  • vs HELM:HELM 是多维度评测框架,MMLU 是其核心数据集之一,HELM 在 MMLU 基础上增加了公平性、鲁棒性等维度的评估

局限与误区

MMLU 虽然影响力巨大,但也存在若干值得注意的局限性。

  • 题库错误:2024 年人工审核发现约 6.5% 的题目存在标注错误,实际最高可达分数远低于 100%
  • 基准饱和:顶级模型分数已聚集在 86–89%,难以区分能力差异,正在失去区分度
  • 数据污染:部分模型的预训练语料可能包含 MMLU 题目,导致分数虚高(即 数据泄漏 问题)
  • 仅测静态知识:选择题格式无法评估推理链、开放生成、多步骤问题解决等能力
  • 英语为主:原版以英语为主,对非英语模型存在语言偏差,跨语言评测需依赖 MMMLU 等扩展版

发展脉络

MMLU 的演进反映了大语言模型评测体系从单一到多元的发展趋势。

  • 2020 年 9 月:Hendrycks 等人发布原始 MMLU 论文(arXiv:2009.03300),设立通识知识评测新标准
  • 2021–2022 年:GPT-3、Codex 等早期大模型在 MMLU 上得分普遍低于 60%,基准有效区分模型能力
  • 2023 年:GPT-4 报告 MMLU 约 86.4%,接近人类专家水平,标志评测饱和问题开始显现
  • 2024 年上半年:多项研究(「Are We Done with MMLU?」)正式指出题库错误与饱和问题;MMLU-Pro 发布以应对挑战
  • 2024 年至今:社区重心向 MMLU-Pro、MMLU-Redux、HELM 等更严格评测体系迁移

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是给 AI 出一套涵盖各学科的考试题,看它能答对多少」
  • 「相当于让大模型参加一场覆盖 57 个科目的综合知识竞赛」
  • 「现在顶级模型已经快考满分了,所以更难的 MMLU-Pro 才开始流行」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    LLM 评测:基准测试与对齐评估

    从 MMLU 到 AlpacaEval 再到 Agent 评测体系,掌握 2026 年大语言模型的最新评估方法和前沿基准

  2. 2

    大模型基准测试方法论:综合基准测试的科学评估

    2026 年大模型进入基准测试泛滥时代。从 MMLU、GSM8K 到 Arena Hard,从 Leaderboard 刷分到真实能力评估,本文系统讲解 LLM 基准测试的完整方法论:测试集设计、评估维度、排行榜陷阱、科学评估框架以及开发者如何正确理解和使用基准测试结果。

  3. 3

    LLM 评测体系:从 MMLU 到 LMSYS Arena

    系统梳理大语言模型评测的核心基准、方法论、Goodhart 定律陷阱,以及如何设计科学可靠的模型评估体系

外部参考

维基百科:查看「MMLU」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。