核心要点

  • 随机抽样一批错例(如 100 条),人工逐条归因分类

  • 分门别类:数据噪声/标签错误/模型能力不足/边界与长尾

  • 量化每一类的占比,按"占比 × 修复 ROI"排优先级

  • 按切片/子群(人群、地域、品类)分析,而非只盯总体指标

标准回答

错误分析是定位瓶颈、决定下一步投入方向的核心手段,比盲目调参高效得多。

1. 抽样看错例

  • 从验证集错误样本中随机抽 ~100 条,人工逐条看。

2. 分门别类归因

  • 数据问题:输入噪声、缺失、分布偏移。
  • 标签问题:标注错误或标注规范不清。
  • 模型问题:能力不足、欠拟合特定模式。
  • 边界/长尾:罕见 case、歧义样本。

3. 量化占比

  • 统计每类占多少(如标签错误占 30%、长尾占 25%),用数据说话。

4. 排优先级

  • 占比 × 修复难易/收益(ROI) 决定先做哪类。占比大且好修的优先。

5. 切片分析

  • 按子群(新老用户、地域、品类)拆指标。总体 AUC 高不代表每个切片都好,长尾切片往往是问题集中区。

产出应是一份"错误类型分布表 + 行动项",而不是一个总体指标。

常见误区

⚠️ 常见踩坑

只看总体指标(accuracy/AUC)下降就盲目换模型或调参,不去逐条看错例;忽视标签错误这一常被低估的大类,也不做切片,掩盖了长尾子群的系统性失败。

追问

追问 1发现很大一部分错误其实是标签错的,怎么办?

先核实标注规范是否清晰、是否存在系统性误标。修正验证集中的错标样本以得到可信指标,再回溯训练集做清洗或重标。标签噪声大时,模型指标本身就不可信,必须先把"尺子"修准。

追问 2为什么要按切片分析而不是只看总体指标?

总体指标会被多数群体平均掉,掩盖少数子群的系统性失败(如某地域、某品类全错)。切片能暴露公平性问题和长尾瓶颈,往往修好一个高占比的差切片,比整体调参收益更大。

追问 3错误分析的产出如何指导下一步迭代?

产出错误类型分布表后,把投入对准占比最大且 ROI 高的那类:标签问题→清洗重标,数据覆盖不足→补数据,模型能力不足→改特征/换模型。每轮只针对一类改动,便于对比验证是否有效。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。