标准回答
ROC 曲线
把分类器输出的分数从高到低逐一作为阈值,每个阈值算一对 (FPR, TPR) 并连成曲线。FPR=FP/(FP+TN) 是把负样本误判为正的比例,TPR=TP/(TP+FN) 即召回率。曲线越往左上角靠,模型越好。
AUC
AUC 是 ROC 曲线下面积,概率含义为:随机取一个正样本和一个负样本,模型给正样本打更高分的概率。1 为完美,0.5 等同随机,刻画的是排序质量而非某个阈值下的判别。
相比准确率的优势
准确率 =(TP+TN)/全部,依赖固定阈值且受类别比例左右——99% 负例时全猜负也有 99% 准确率。AUC 阈值无关、衡量整体排序能力,对类别不平衡更稳健,也便于跨模型公平比较。
常见误区
⚠️ 常见踩坑
把 ROC 纵轴 TPR 与精确率搞混——纵轴是召回率(TPR),不是精确率。另外在极端不平衡下 ROC-AUC 可能偏乐观,此时应改看 PR 曲线 / PR-AUC。
追问
追问 1:什么时候该用 PR 曲线而非 ROC?
当正类稀少且更关心正类表现时(如欺诈、罕见病检测)。FPR 分母含大量负样本,使 ROC 对不平衡不敏感;PR 曲线只看正类的精确率-召回率,更能暴露性能差异。
追问 2:AUC=0.5 和接近 0 各意味着什么?
0.5 表示排序能力等同随机猜测。接近 0 表示排序完全反了——把正样本判低、负样本判高,把预测取反即可得到接近 1 的好模型。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。