标准回答
什么是校准
一个模型校准良好,是指它输出的概率能反映真实正确频率:在所有被预测为「0.8 置信度」的样本里,大约 80% 真的属于该类。它衡量的是概率的可信度,与准确率是两回事——模型可以很准但严重过自信。
为什么重要
很多场景用的是概率而非硬标签:风控按违约概率定额度、医疗按概率分诊、检索按阈值过滤、多模型融合按概率加权。若概率不可信,这些决策都会偏。现代深度网络(尤其大网络 + 强正则)普遍过自信,越来越需要后处理校准。
方法与度量
最常用温度缩放:在验证集上学一个标量 T 去除以 logits 再 softmax,简单且不改变分类结果,只调整置信度;此外有 Platt scaling(逻辑回归)、等距回归(非参数、单调)。度量上用 ECE(期望校准误差,按置信度分箱比较置信度与准确率之差)和可靠性图(reliability diagram)可视化。
常见误区
⚠️ 常见踩坑
把高准确率当成校准好——两者独立,一个 95% 准确的模型可能把几乎所有样本都打 0.99 置信度而严重过自信;校准必须在独立的验证集上做并用 ECE/可靠性图评估,不能在训练集上拟合。
追问
追问 1:温度缩放为什么不改变准确率?
温度缩放对所有类别的 logits 同除一个标量 T 再 softmax。除以正数不改变 logits 之间的大小排序,argmax 不变,所以预测类别和准确率完全不变,只是把概率分布整体变得更平缓(T>1,降低过自信)或更尖锐(T<1)。这正是它的优点:零精度损失地改善置信度可信度。
追问 2:ECE 有什么局限?
ECE 依赖分箱,箱数和分箱方式会影响结果,等宽分箱在样本集中区域不稳定;它只衡量整体平均,可能掩盖局部(某置信度区间)的严重失准;且对多分类只看 top-1 概率时忽略其他类别的校准。补充手段包括自适应分箱、类条件 ECE、Brier score 及直接看可靠性图。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。