模型错误分析（Error Analysis）应该怎么做？

Question 1

Accepted Answer

错误分析是定位瓶颈、决定下一步投入方向的核心手段，比盲目调参高效得多。 1. 抽样看错例 - 从验证集错误样本中随机抽 ~100 条，人工逐条看。 2. 分门别类归因 - 数据问题：输入噪声、缺失、分布偏移。 - 标签问题：标注错误或标注规范不清。 - 模型问题：能力不足、欠拟合特定模式。 - 边界/长尾：罕见 case、歧义样本。 3. 量化占比 - 统计每类占多少（如标签错误占 30%、长尾占 25%），用数据说话。 4. 排优先级 - 按 占比 × 修复难易/收益（ROI） 决定先做哪类。占比大且好修的优先。 5. 切片分析 - 按子群（新老用户、地域、品类）拆指标。总体 AUC 高不代表每个切片都好，长尾切片往往是问题集中区。 产出应是一份"错误类型分布表 + 行动项"，而不是一个总体指标。

Question 2

发现很大一部分错误其实是标签错的，怎么办？

Accepted Answer

先核实标注规范是否清晰、是否存在系统性误标。修正验证集中的错标样本以得到可信指标，再回溯训练集做清洗或重标。标签噪声大时，模型指标本身就不可信，必须先把"尺子"修准。

Question 3

为什么要按切片分析而不是只看总体指标？

Accepted Answer

总体指标会被多数群体平均掉，掩盖少数子群的系统性失败（如某地域、某品类全错）。切片能暴露公平性问题和长尾瓶颈，往往修好一个高占比的差切片，比整体调参收益更大。

Question 4

错误分析的产出如何指导下一步迭代？

Accepted Answer

产出错误类型分布表后，把投入对准占比最大且 ROI 高的那类：标签问题→清洗重标，数据覆盖不足→补数据，模型能力不足→改特征/换模型。每轮只针对一类改动，便于对比验证是否有效。

模型错误分析（Error Analysis）应该怎么做？

核心要点

标准回答

常见误区

追问

延伸学习