核心要点

  • 定义:校准好 = 预测概率与真实正确频率一致,例如所有「0.8 置信度」的样本中约 80% 确实为正

  • 为何重要:风控、医疗、阈值决策、与其他系统融合时,需要概率本身可信,而非只看准确率

  • 现状:现代深度网络往往过自信(输出概率偏高),准确率高不代表校准好

  • 方法与度量:温度缩放(单参数、最常用)、Platt scaling、等距回归校准;用 ECE 与可靠性图衡量

标准回答

什么是校准

一个模型校准良好,是指它输出的概率能反映真实正确频率:在所有被预测为「0.8 置信度」的样本里,大约 80% 真的属于该类。它衡量的是概率的可信度,与准确率是两回事——模型可以很准但严重过自信。

为什么重要

很多场景用的是概率而非硬标签:风控按违约概率定额度、医疗按概率分诊、检索按阈值过滤、多模型融合按概率加权。若概率不可信,这些决策都会偏。现代深度网络(尤其大网络 + 强正则)普遍过自信,越来越需要后处理校准。

方法与度量

最常用温度缩放:在验证集上学一个标量 T 去除以 logits 再 softmax,简单且不改变分类结果,只调整置信度;此外有 Platt scaling(逻辑回归)、等距回归(非参数、单调)。度量上用 ECE(期望校准误差,按置信度分箱比较置信度与准确率之差)和可靠性图(reliability diagram)可视化。

常见误区

⚠️ 常见踩坑

把高准确率当成校准好——两者独立,一个 95% 准确的模型可能把几乎所有样本都打 0.99 置信度而严重过自信;校准必须在独立的验证集上做并用 ECE/可靠性图评估,不能在训练集上拟合。

追问

追问 1温度缩放为什么不改变准确率?

温度缩放对所有类别的 logits 同除一个标量 T 再 softmax。除以正数不改变 logits 之间的大小排序,argmax 不变,所以预测类别和准确率完全不变,只是把概率分布整体变得更平缓(T>1,降低过自信)或更尖锐(T<1)。这正是它的优点:零精度损失地改善置信度可信度。

追问 2ECE 有什么局限?

ECE 依赖分箱,箱数和分箱方式会影响结果,等宽分箱在样本集中区域不稳定;它只衡量整体平均,可能掩盖局部(某置信度区间)的严重失准;且对多分类只看 top-1 概率时忽略其他类别的校准。补充手段包括自适应分箱、类条件 ECE、Brier score 及直接看可靠性图。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。