Mean Average Precision（平均精度均值）

mAP 就是把每个类别的『精准率-召回率曲线面积』加起来求个平均，分越高说明模型在所有类别上都找得准、找得全。

亦作、亦称：平均精度均值 · mAP · MAP · 均值平均精度

mAP（Mean Average Precision，平均精度均值）是信息检索与计算机视觉目标检测领域最主流的综合评估指标，能在单一数值中同时反映模型的精确率与召回率表现。它被 PASCAL VOC、MS COCO 等权威基准广泛采用，是衡量检测模型优劣的行业标准。

概述

mAP 将精确率（Precision）与召回率（Recall）的权衡浓缩进单一指标，广泛用于信息检索、推荐系统与目标检测的模型评估。

精确率：预测为正例中真正为正例的比例
召回率：所有真正正例中被检测到的比例
AP（Average Precision）：单类别精确率-召回率曲线下的面积，值域 [0, 1]
mAP：所有类别或查询的 AP 均值，是跨类别综合评估的标准指标
分数越高，代表模型在所有类别上精准率与召回率的综合表现越好

工作原理

mAP 的计算需按类别分别构建精确率-召回率曲线，再积分取均值。

步骤一：对每个类别，按置信度从高到低对预测结果排序
步骤二：依次纳入每条预测，判断是否命中（IoU ≥ 阈值且类别正确），更新当前精确率和召回率，得到一组 (Recall, Precision) 点
步骤三：计算该类别的 AP，即精确率-召回率曲线下面积（面积越大越好）
步骤四：对所有 N 个类别的 AP 取均值，得到 mAP = (1/N) Σ APᵢ
PASCAL VOC 2007 使用 11 点插值法；VOC 2010+ 及 COCO 使用全点积分（更精确）

主要变体与协议

不同评测基准对 mAP 的计算口径存在差异，比较时须明确版本。

mAP@0.5（VOC 协议）：IoU 阈值固定为 0.5，检测框与真值框重叠超过 50% 即视为命中，标准相对宽松
mAP@0.5:0.05:0.95（COCO 协议）：在 0.5~0.95 共 10 个 IoU 阈值下各算一次 mAP 再取均值，对定位精度要求更严格
mAP@小/中/大目标：COCO 还按目标面积分组评估，用于诊断模型对小目标的检测能力
信息检索 MAP：不涉及 IoU，以查询的相关文档排序质量为准，是 TREC 评测的核心指标
mAP@k：只考虑前 k 个检索结果，常用于搜索引擎与推荐系统

应用场景

mAP 在多个 AI 方向都是主流评估指标，覆盖检测、检索与推荐。

目标检测：YOLO、Faster R-CNN、DETR 等模型在 COCO、VOC 上用 mAP 排名对比
实例分割：结合 mask IoU，评估像素级检测与分割精度
信息检索 / 搜索引擎：衡量文档排序系统对多个查询的平均表现
推荐系统：评估推荐列表的相关性与排序质量
医学影像：病灶检测（如肿瘤、息肉）用 mAP 衡量漏检率与误检率平衡
自动驾驶：行人、车辆、交通标志的多类别检测评估标准

与相邻概念的区别

mAP 常与精确率、召回率、F1 等指标混淆，理解差异有助于正确选型。

mAP vs. Accuracy（准确率）：准确率不考虑排序，对类别不平衡敏感；mAP 对排序质量更敏感，适合多类别检测
mAP vs. F1 Score：F1 是单一阈值下的精确率与召回率调和均值；mAP 整合了所有阈值，更全面
mAP vs. IoU：IoU（交并比）是衡量单个检测框位置准确性的局部指标，是计算 mAP 的前置判定条件，而非综合指标
mAP vs. mAR（Mean Average Recall）：mAR 侧重召回能力，mAP 同时关注精准率，两者互补
AP vs. mAP：AP 是单类别指标，mAP 是多类别均值，后者是整体模型评估的标准

局限与常见误区

mAP 虽然权威，但在实际使用中有若干需要注意的陷阱。

对小目标不敏感：小目标 AP 偏低，但若数量少，对 mAP 拉动有限，可能掩盖模型缺陷
类别不平衡影响：稀有类别 AP 波动大，mAP 均值可能被少数常见类主导
IoU 阈值选取影响结论：mAP@0.5 与 mAP@0.5:0.95 排名可能不一致，不可混用比较
协议混用：不同数据集、框架的 mAP 计算细节（插值方式、IoU 定义）不同，跨基准比较需谨慎
高 mAP ≠ 好用：推理速度、模型大小、对遮挡/截断目标的表现同等重要，实际落地需综合考量

发展脉络

mAP 从信息检索社区发源，随目标检测的崛起逐步演化为计算机视觉的核心基准。

1992 年：NIST TREC（文本检索会议）启动，MAP 成为信息检索评测的「黄金标准」
2005 年：PASCAL VOC 挑战赛创立，将 mAP 引入图像物体识别评估
2007 年：PASCAL VOC 2007 正式将 mAP@0.5（11 点插值）确立为目标检测标准指标
2010 年：PASCAL VOC 2010 改用全点积分，AP 计算更精确
2014 年：MS COCO 数据集与挑战赛发布（Lin et al.），推出更严格的 mAP@[0.5:0.05:0.95] 协议
2017 年至今：YOLO 系列、DETR、SAM 等模型以 COCO mAP 为主要排名依据，推动了目标检测技术快速迭代

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「mAP 就是把每个类别的『精准率-召回率曲线面积』加起来求个平均，分越高说明模型在所有类别上都找得准、找得全。」
「很多人以为 mAP 越高就一定越好用，但它对小目标或长尾类别不够敏感，实际落地还得结合具体场景分析。」
「mAP@0.5 和 mAP@0.5:0.95 差别很大——前者只要检测框大致对齐就算对，后者要求框更精准，更能反映真实定位质量。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Mean Average Precision」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。