核心要点

  • 学习曲线:训练误差与验证误差随训练样本量增加的变化曲线

  • 高偏差(欠拟合):两条曲线都收敛到较高误差且彼此接近,加数据无济于事

  • 高方差(过拟合):训练误差低、验证误差高,两者间隙(gap)大

  • 对策:欠拟合增模型复杂度/加特征/减正则;过拟合加数据/加正则/降复杂度

标准回答

什么是学习曲线

学习曲线以训练集样本量为横轴,训练误差和验证(交叉验证)误差为纵轴。随着样本增多,训练误差一般上升(越来越难完美拟合),验证误差一般下降,二者最终收敛。

两种诊断

高偏差 / 欠拟合:训练误差和验证误差都收敛到一个较高的水平,且两条曲线靠得很近。说明模型本身能力不足,连训练集都没学好。此时继续加数据几乎没用,应增加模型复杂度(更深的树、更多特征、更高阶项)或减小正则强度。

高方差 / 过拟合:训练误差很低,但验证误差明显更高,两条曲线之间存在较大间隙(gap)。说明模型记住了训练集噪声。对策是增加训练数据(gap 会随样本增多而收窄)、加强正则化(L1/L2/Dropout)、降低模型复杂度或做特征选择。

实用判断:先看 gap(方差信号),再看误差的绝对高度(偏差信号),即可定位问题方向。

常见误区

⚠️ 常见踩坑

不能只看训练误差判断好坏,必须对比验证误差与两者间隙;曲线尚未收敛(仍在下降)时说明数据量不足,先补数据再下结论。

追问

追问 1如果训练误差和验证误差都很高且接近,加数据有用吗?

没用。这是高偏差/欠拟合的典型表现,模型连训练集都拟合不好,瓶颈在模型容量而非数据量。应先提升模型复杂度、增加有效特征或降低正则,再考虑数据。

追问 2学习曲线和验证曲线(validation curve)有什么区别?

学习曲线横轴是训练样本量,用于诊断偏差/方差与数据是否够用;验证曲线横轴是某个超参数(如树深度、正则系数 λ),用于为该超参选最优值、观察其对欠拟合/过拟合的影响。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。