核心要点

  • ROC 曲线以 FPR=FP/(FP+TN) 为横轴、TPR=TP/(TP+FN)(即召回率)为纵轴,遍历所有阈值绘制。

  • AUC 是 ROC 下的面积,等于「随机一个正样本得分高于随机一个负样本」的概率,范围 [0,1],0.5 为随机。

  • AUC 阈值无关:评估的是模型对正负样本的整体排序能力,不依赖某个固定切分点。

  • 相对准确率:准确率受阈值和类别比例影响,不平衡时会误导;AUC 对此更稳健。

标准回答

ROC 曲线

把分类器输出的分数从高到低逐一作为阈值,每个阈值算一对 (FPR, TPR) 并连成曲线。FPR=FP/(FP+TN) 是把负样本误判为正的比例,TPR=TP/(TP+FN) 即召回率。曲线越往左上角靠,模型越好。

AUC

AUC 是 ROC 曲线下面积,概率含义为:随机取一个正样本和一个负样本,模型给正样本打更高分的概率。1 为完美,0.5 等同随机,刻画的是排序质量而非某个阈值下的判别。

相比准确率的优势

准确率 =(TP+TN)/全部,依赖固定阈值且受类别比例左右——99% 负例时全猜负也有 99% 准确率。AUC 阈值无关、衡量整体排序能力,对类别不平衡更稳健,也便于跨模型公平比较。

常见误区

⚠️ 常见踩坑

把 ROC 纵轴 TPR 与精确率搞混——纵轴是召回率(TPR),不是精确率。另外在极端不平衡下 ROC-AUC 可能偏乐观,此时应改看 PR 曲线 / PR-AUC。

追问

追问 1什么时候该用 PR 曲线而非 ROC?

当正类稀少且更关心正类表现时(如欺诈、罕见病检测)。FPR 分母含大量负样本,使 ROC 对不平衡不敏感;PR 曲线只看正类的精确率-召回率,更能暴露性能差异。

追问 2AUC=0.5 和接近 0 各意味着什么?

0.5 表示排序能力等同随机猜测。接近 0 表示排序完全反了——把正样本判低、负样本判高,把预测取反即可得到接近 1 的好模型。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。