模型概率校准（Calibration）是什么？为什么重要？

Q: ECE 有什么局限？

ECE 依赖分箱，箱数和分箱方式会影响结果，等宽分箱在样本集中区域不稳定；它只衡量整体平均，可能掩盖局部（某置信度区间）的严重失准；且对多分类只看 top-1 概率时忽略其他类别的校准。补充手段包括自适应分箱、类条件 ECE、Brier score 及直接看可靠性图。

Question 1

Accepted Answer

什么是校准 一个模型校准良好，是指它输出的概率能反映真实正确频率：在所有被预测为「0.8 置信度」的样本里，大约 80% 真的属于该类。它衡量的是概率的可信度，与准确率是两回事——模型可以很准但严重过自信。 为什么重要 很多场景用的是概率而非硬标签：风控按违约概率定额度、医疗按概率分诊、检索按阈值过滤、多模型融合按概率加权。若概率不可信，这些决策都会偏。现代深度网络（尤其大网络 + 强正则）普遍过自信，越来越需要后处理校准。 方法与度量 最常用温度缩放：在验证集上学一个标量 T 去除以 logits 再 softmax，简单且不改变分类结果，只调整置信度；此外有 Platt scaling（逻辑回归）、等距回归（非参数、单调）。度量上用 ECE（期望校准误差，按置信度分箱比较置信度与准确率之差）和可靠性图（reliability diagram）可视化。

Question 2

温度缩放为什么不改变准确率？

Accepted Answer

温度缩放对所有类别的 logits 同除一个标量 T 再 softmax。除以正数不改变 logits 之间的大小排序，argmax 不变，所以预测类别和准确率完全不变，只是把概率分布整体变得更平缓（T>1，降低过自信）或更尖锐（T<1）。这正是它的优点：零精度损失地改善置信度可信度。

Question 3

ECE 有什么局限？

Accepted Answer

ECE 依赖分箱，箱数和分箱方式会影响结果，等宽分箱在样本集中区域不稳定；它只衡量整体平均，可能掩盖局部（某置信度区间）的严重失准；且对多分类只看 top-1 概率时忽略其他类别的校准。补充手段包括自适应分箱、类条件 ECE、Brier score 及直接看可靠性图。

模型概率校准（Calibration）是什么？为什么重要？

核心要点

标准回答

常见误区

追问

延伸学习