核心要点
随机抽样一批错例(如 100 条),人工逐条归因分类
分门别类:数据噪声/标签错误/模型能力不足/边界与长尾
量化每一类的占比,按"占比 × 修复 ROI"排优先级
按切片/子群(人群、地域、品类)分析,而非只盯总体指标
标准回答
错误分析是定位瓶颈、决定下一步投入方向的核心手段,比盲目调参高效得多。
1. 抽样看错例
- 从验证集错误样本中随机抽 ~100 条,人工逐条看。
2. 分门别类归因
- 数据问题:输入噪声、缺失、分布偏移。
- 标签问题:标注错误或标注规范不清。
- 模型问题:能力不足、欠拟合特定模式。
- 边界/长尾:罕见 case、歧义样本。
3. 量化占比
- 统计每类占多少(如标签错误占 30%、长尾占 25%),用数据说话。
4. 排优先级
- 按 占比 × 修复难易/收益(ROI) 决定先做哪类。占比大且好修的优先。
5. 切片分析
- 按子群(新老用户、地域、品类)拆指标。总体 AUC 高不代表每个切片都好,长尾切片往往是问题集中区。
产出应是一份"错误类型分布表 + 行动项",而不是一个总体指标。
常见误区
⚠️ 常见踩坑
只看总体指标(accuracy/AUC)下降就盲目换模型或调参,不去逐条看错例;忽视标签错误这一常被低估的大类,也不做切片,掩盖了长尾子群的系统性失败。
追问
追问 1:发现很大一部分错误其实是标签错的,怎么办?
先核实标注规范是否清晰、是否存在系统性误标。修正验证集中的错标样本以得到可信指标,再回溯训练集做清洗或重标。标签噪声大时,模型指标本身就不可信,必须先把"尺子"修准。
追问 2:为什么要按切片分析而不是只看总体指标?
总体指标会被多数群体平均掉,掩盖少数子群的系统性失败(如某地域、某品类全错)。切片能暴露公平性问题和长尾瓶颈,往往修好一个高占比的差切片,比整体调参收益更大。
追问 3:错误分析的产出如何指导下一步迭代?
产出错误类型分布表后,把投入对准占比最大且 ROI 高的那类:标签问题→清洗重标,数据覆盖不足→补数据,模型能力不足→改特征/换模型。每轮只针对一类改动,便于对比验证是否有效。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。