Accuracy（准确率）

正确回答了多少题

亦作、亦称：准确率 · Acc · 分类准确率

准确率（Accuracy）是机器学习分类任务中最常见的性能指标，衡量模型在全部样本中预测正确的比例。它计算简单、易于解释，是模型评估的第一道关口；但在样本类别不均衡时，高准确率可能掩盖模型的实际缺陷，需结合精确率、召回率与 AUC 等指标综合判断。

概述

准确率是评估分类模型最直观的指标，反映模型「说对话」的整体比例。

正确预测：模型输出的类别与真实标签一致的样本
公式：Accuracy = (TP + TN) / (TP + TN + FP + FN)
取值范围 0–1，越接近 1 表示预测越准确
适用于二分类和多分类任务
是 Scikit-learn、PyTorch Metrics、TensorFlow 等框架的默认分类指标

计算原理

准确率基于混淆矩阵（Confusion Matrix）的四个基本量计算。

TP（True Positive）：实际正类，预测也为正类
TN（True Negative）：实际负类，预测也为负类
FP（False Positive）：实际负类，错误预测为正类
FN（False Negative）：实际正类，错误预测为负类
多分类时公式退化为：所有类别预测正确样本数之和 / 总样本数
示例：1000 条测试样本中 850 条预测正确，Accuracy = 0.85

变体与相关指标

为弥补准确率在不平衡数据下的不足，衍生出多种变体。

Balanced Accuracy：各类别召回率的算术平均，消除类别数量偏差，适用于多分类不平衡场景
Top-k Accuracy：预测概率前 k 高的类别中包含真实标签即算正确，常用于 ImageNet 评测（Top-1 / Top-5）
Subset Accuracy（多标签）：仅当所有标签均预测正确才算一次正确
Precision / Recall / F1：在不平衡数据上比单一准确率更有区分力
Matthews Correlation Coefficient（MCC）：综合考虑四象限，是不平衡二分类的鲁棒指标

应用场景

准确率最适合在样本分布均衡的场景下作为首要指标使用。

图像分类：如 MNIST 手写数字识别（各数字样本均衡），准确率是标准评测指标
语言模型评测：MMLU、HellaSwag 等 Benchmark 用准确率比较模型在多选题上的能力
NAS 搜索（如 dl-014）：在架构搜索过程中用验证集准确率评估候选网络
生产监控（如 aieng-005）：与模型漂移检测结合，实时追踪线上准确率下滑
MLOps 实验追踪（如 mlops-002）：在不同版本/超参下对比准确率是最常见的实验记录

局限与误区

准确率在不平衡数据场景中会产生严重误导，是初学者最常踩的坑之一。

准确率悖论（Accuracy Paradox）：若负类占 99%，模型全预测负类，准确率 = 99% 但召回率 = 0
欺诈检测 / 医疗诊断：正样本稀少，高准确率不等于模型有用
不等价误分类成本：漏诊癌症（FN）远比误诊（FP）代价高，准确率无法反映这种差异
多分类样本不均衡：主类别样本多则主导准确率，少数类识别能力被掩盖
正确做法：同时汇报 Precision、Recall、F1、ROC-AUC 或混淆矩阵

发展脉络

准确率作为分类评估指标随机器学习的发展而演变。

1970s–1980s：统计分类方法兴起，准确率成为标准评测量
1997 年：Tom Mitchell 的经典教材《Machine Learning》系统阐述了准确率的计算与适用场景
2000s：随着不平衡数据研究兴起，Precision、Recall、F1 被广泛采纳以补充准确率
2009 年：Sokolova & Lapalme 在文献中系统比较了 24 种分类评估指标，明确各自适用场景
2010s：ImageNet 竞赛推广 Top-1 / Top-5 Accuracy，成为 CV 领域基准
2020s：LLM Benchmark（MMLU、HumanEval）广泛使用准确率评测模型在标准测试题上的表现

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「正确回答了多少题」
「预测对了百分之几」
「准确率高 = 模型好？——数据不平衡时不一定！」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Accuracy」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Accuracy（准确率）

概述

计算原理

变体与相关指标

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

模型监控与漂移检测

MLOps 实战：模型版本管理与实验追踪

神经架构搜索 NAS：自动设计网络

外部参考

概述

计算原理

变体与相关指标

应用场景

局限与误区

与相邻概念的区别

发展脉络

常见误解

相关术语

延伸阅读

模型监控与漂移检测

MLOps 实战：模型版本管理与实验追踪

神经架构搜索 NAS：自动设计网络

外部参考