Accuracy(准确率)

正确回答了多少题

亦作、亦称:准确率 · Acc · 分类准确率

准确率(Accuracy)是机器学习分类任务中最常见的性能指标,衡量模型在全部样本中预测正确的比例。它计算简单、易于解释,是模型评估的第一道关口;但在样本类别不均衡时,高准确率可能掩盖模型的实际缺陷,需结合精确率、召回率与 AUC 等指标综合判断。

概述

准确率是评估分类模型最直观的指标,反映模型「说对话」的整体比例。

  • 正确预测:模型输出的类别与真实标签一致的样本
  • 公式:Accuracy = (TP + TN) / (TP + TN + FP + FN)
  • 取值范围 0–1,越接近 1 表示预测越准确
  • 适用于二分类多分类任务
  • 是 Scikit-learn、PyTorch Metrics、TensorFlow 等框架的默认分类指标

计算原理

准确率基于混淆矩阵(Confusion Matrix)的四个基本量计算。

  • TP(True Positive):实际正类,预测也为正类
  • TN(True Negative):实际负类,预测也为负类
  • FP(False Positive):实际负类,错误预测为正类
  • FN(False Negative):实际正类,错误预测为负类
  • 多分类时公式退化为:所有类别预测正确样本数之和 / 总样本数
  • 示例:1000 条测试样本中 850 条预测正确,Accuracy = 0.85

变体与相关指标

为弥补准确率在不平衡数据下的不足,衍生出多种变体。

  • Balanced Accuracy:各类别召回率的算术平均,消除类别数量偏差,适用于多分类不平衡场景
  • Top-k Accuracy:预测概率前 k 高的类别中包含真实标签即算正确,常用于 ImageNet 评测(Top-1 / Top-5)
  • Subset Accuracy(多标签):仅当所有标签均预测正确才算一次正确
  • Precision / Recall / F1:在不平衡数据上比单一准确率更有区分力
  • Matthews Correlation Coefficient(MCC):综合考虑四象限,是不平衡二分类的鲁棒指标

应用场景

准确率最适合在样本分布均衡的场景下作为首要指标使用。

  • 图像分类:如 MNIST 手写数字识别(各数字样本均衡),准确率是标准评测指标
  • 语言模型评测:MMLU、HellaSwag 等 Benchmark 用准确率比较模型在多选题上的能力
  • NAS 搜索(如 dl-014):在架构搜索过程中用验证集准确率评估候选网络
  • 生产监控(如 aieng-005):与模型漂移检测结合,实时追踪线上准确率下滑
  • MLOps 实验追踪(如 mlops-002):在不同版本/超参下对比准确率是最常见的实验记录

局限与误区

准确率在不平衡数据场景中会产生严重误导,是初学者最常踩的坑之一。

  • 准确率悖论(Accuracy Paradox):若负类占 99%,模型全预测负类,准确率 = 99% 但召回率 = 0
  • 欺诈检测 / 医疗诊断:正样本稀少,高准确率不等于模型有用
  • 不等价误分类成本:漏诊癌症(FN)远比误诊(FP)代价高,准确率无法反映这种差异
  • 多分类样本不均衡:主类别样本多则主导准确率,少数类识别能力被掩盖
  • 正确做法:同时汇报 Precision、Recall、F1、ROC-AUC 或混淆矩阵

发展脉络

准确率作为分类评估指标随机器学习的发展而演变。

  • 1970s–1980s:统计分类方法兴起,准确率成为标准评测量
  • 1997 年:Tom Mitchell 的经典教材《Machine Learning》系统阐述了准确率的计算与适用场景
  • 2000s:随着不平衡数据研究兴起,Precision、Recall、F1 被广泛采纳以补充准确率
  • 2009 年:Sokolova & Lapalme 在文献中系统比较了 24 种分类评估指标,明确各自适用场景
  • 2010s:ImageNet 竞赛推广 Top-1 / Top-5 Accuracy,成为 CV 领域基准
  • 2020s:LLM Benchmark(MMLU、HumanEval)广泛使用准确率评测模型在标准测试题上的表现

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「正确回答了多少题」
  • 「预测对了百分之几」
  • 「准确率高 = 模型好?——数据不平衡时不一定!」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    模型监控与漂移检测

    从数据漂移到性能监控,掌握生产环境中的模型运维

  2. 2

    MLOps 实战:模型版本管理与实验追踪

    从 MLflow 到 WandB,掌握机器学习实验追踪与模型版本管理的最佳实践

  3. 3

    神经架构搜索 NAS:自动设计网络

    让 AI 设计 AI,理解神经架构搜索的核心方法与前沿进展

外部参考

维基百科:查看「Accuracy」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。