核心要点

  • 先用错误分析定位瓶颈:是数据、特征、模型还是标签问题

  • 优先级:数据质量与数量 > 特征 > 模型/调参(通常数据收益最大)

  • 每次只改一处变量,可对比、可归因,避免一次改一堆

  • 建立可复现的实验管理与稳定的离线评测集做回归

标准回答

不要一上来就换模型调参,要先诊断再下药

1. 诊断瓶颈(错误分析)

  • 抽样看错例、分类归因(数据/标签/特征/模型/长尾),量化各类占比。
  • 同时看偏差-方差:训练集就差→欠拟合(模型/特征不够);训练好测试差→过拟合或分布偏移。

2. 按 ROI 排优先级

  • 通常顺序:数据质量 → 数据数量 → 特征 → 模型/调参
  • 实践中"加干净数据、修标签、补长尾"往往比换模型收益大得多。

3. 单变量迭代

  • 每轮只改一个因素,与上一版在同一评测集对比,才能归因是哪个改动起了作用。

4. 可复现的实验闭环

  • 固定数据切分与离线评测集(含切片指标),用实验追踪工具记录每次配置与结果。
  • 关键改动上线前用 A/B 测试验证业务指标。

核心原则:用错误分析驱动,按 ROI 排序,单变量、可复现地迭代。

常见误区

⚠️ 常见踩坑

不做错误分析就盲目调参/换大模型;一次改动多个变量导致无法归因;没有固定评测集,每次用不同数据对比,"提升"是噪声。多数时候瓶颈在数据而非模型。

追问

追问 1怎么判断瓶颈是数据问题还是模型问题?

看偏差-方差和错误分析:训练集表现就差→模型/特征容量不足(高偏差),该加特征或换更强模型;训练好但测试差→过拟合或数据分布问题,该加数据、正则或修复分布偏移。再结合错例归因确认主要错误类型。

追问 2为什么"加数据"常比"换模型"更有效?

多数实际任务的瓶颈是数据覆盖不足、标签噪声或长尾缺失,而非模型容量。补充干净、覆盖薄弱切片的数据能直接抬高上限,且收益稳定、风险低;换更复杂模型可能只在脏数据上过拟合,收益有限还增加维护成本。

追问 3如何保证多轮迭代的结果可比、可复现?

固定随机种子、固定数据切分和评测集,用实验追踪工具(记录代码版本、数据版本、超参、指标),每轮只改一个变量。这样任意两个实验都能在同一基准上公平对比,结论可复现。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。