MATH Benchmark（数学竞赛题基准）

就是一套拿竞赛数学题来考 AI 的标准测试，做对多少道题就代表 AI 数学能力有多强。

亦作、亦称：数学竞赛题基准 · MATH Benchmark · Hendrycks MATH

MATH Benchmark 是 AI 数学推理能力的权威评测标准，以竞赛级别题目考验模型的多步推导与符号运算能力。它由 Dan Hendrycks 等人于 2021 年提出，至今仍是区分基础数学能力与深度推理能力的核心基准。

概述

MATH Benchmark 旨在提供一个超越基础算术、真正考验数学推理的标准化评测平台。

规模：共 12,500 道题，训练集 7,500 道，测试集 5,000 道
来源：AMC 10、AMC 12、AIME 等权威高中数学竞赛
科目：预代数、代数、数论、计数与概率、几何、中级代数、预微积分
难度分级：每题标注 1（最易）到 5（最难）共五级
答案格式：最终答案统一用 LaTeX \boxed{} 标注，便于自动评测

工作原理与评测方式

MATH 的评测核心在于检验模型能否产出正确的最终答案，同时鼓励逐步推导。

输入：题目文本（含 LaTeX 公式），无需外部工具
输出：模型生成完整解题过程，最终答案须匹配 \boxed{} 内容
评分：通常采用精确匹配（exact match）或等价表达式匹配（symbolic equivalence）
Chain-of-Thought（CoT）：逐步推理提示可显著提升准确率，是当前主流评测范式
工具增强：允许使用 Python 解释器的模型准确率可额外提高 20-30 个百分点

难度分级与题型

五级难度覆盖从入门到竞赛顶尖的完整区间，为模型能力画像提供细粒度视角。

Level 1-2：基础概念题，多数 LLM 可达 80% 以上准确率
Level 3：中等难度，需要多步推导，当前模型约 60-70%
Level 4-5：竞赛核心难题，涉及创造性推理，顶尖模型约 50-60%
数论与计数：被普遍认为最难科目，需要精确的逻辑链
几何：含大量图形推理，纯文本模型表现相对较弱

主要模型表现与发展脉络

MATH 见证了大模型数学推理能力的快速跃升。

2021 年：GPT-3 等早期模型准确率不足 10%，Hendrycks 等人指出单纯扩大参数无法解决
2022 年：Minerva（Google）借助大规模数学预训练数据，准确率提升至约 50%
2023 年：GPT-4 with CoT 达到约 42-52%；配合 Python 解释器可超 70%
2024-2025 年：o1、DeepSeek-R1 等推理专用模型在 MATH 上超过 90%，基准趋于饱和
2025 年后：社区转向更难的 AIME 2024/2025、Omni-MATH 等新基准

应用场景

MATH 基准被广泛应用于模型研发、对比评测和教育 AI 领域。

模型训练信号：用于监督微调（SFT）和强化学习（RL）的奖励信号，如 RLVR 范式
- 能力对比：各大 LLM 发布报告必备评测项，横向比较数学推理能力
-教育 AI 开发：验证 AI 辅导系统在竞赛数学领域的解题可靠性
- 推理研究：作为 CoT、自洽性（Self-Consistency）、Process Reward Model 等方法的标准验证平台
-多模态评测：视觉语言模型用于解决含图题目

局限与误区

MATH 作为基准存在若干重要局限，使用时需保持审慎。

饱和风险：顶尖推理模型准确率已超 90%，辨别力下降，需配合更难基准使用
评测污染：大量训练数据可能含有 MATH 题目或解法，导致数据泄漏（data contamination）
精确匹配局限：不同等价形式的正确答案（如 $\frac{1}{2}$ 与 $0.5$）可能被错误判错
过度拟合：模型在 MATH 上高分不代表真实数学推理能力，泛化到新颖题目时往往下降
缺乏过程评估：仅看最终答案，无法区分正确推理与侥幸猜对

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是一套拿竞赛数学题来考 AI 的标准测试，做对多少道题就代表 AI 数学能力有多强。」
「MATH 基准里的题跟高考不一样，都是竞赛难度，很多题需要 AI 一步一步推导才能解对。」
「很多人以为大模型只要够大就能刷高 MATH 分，但其实单靠参数量远不够，还需要专门的推理训练。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

MATH Benchmark（数学竞赛题基准）

概述

工作原理与评测方式

难度分级与题型

主要模型表现与发展脉络

应用场景

局限与误区

常见误解

相关术语

延伸阅读

AI 数学推理：从符号推理到形式化证明的演进

AI 自动化定理证明：从形式化方法到大模型数学推理

小型模型集群架构：用编排智能替代参数暴力的新范式

概述

工作原理与评测方式

难度分级与题型

主要模型表现与发展脉络

应用场景

局限与误区

与相邻基准的区别

常见误解

相关术语

延伸阅读

AI 数学推理：从符号推理到形式化证明的演进

AI 自动化定理证明：从形式化方法到大模型数学推理

小型模型集群架构：用编排智能替代参数暴力的新范式