标准回答
什么是学习曲线
学习曲线以训练集样本量为横轴,训练误差和验证(交叉验证)误差为纵轴。随着样本增多,训练误差一般上升(越来越难完美拟合),验证误差一般下降,二者最终收敛。
两种诊断
高偏差 / 欠拟合:训练误差和验证误差都收敛到一个较高的水平,且两条曲线靠得很近。说明模型本身能力不足,连训练集都没学好。此时继续加数据几乎没用,应增加模型复杂度(更深的树、更多特征、更高阶项)或减小正则强度。
高方差 / 过拟合:训练误差很低,但验证误差明显更高,两条曲线之间存在较大间隙(gap)。说明模型记住了训练集噪声。对策是增加训练数据(gap 会随样本增多而收窄)、加强正则化(L1/L2/Dropout)、降低模型复杂度或做特征选择。
实用判断:先看 gap(方差信号),再看误差的绝对高度(偏差信号),即可定位问题方向。
常见误区
⚠️ 常见踩坑
不能只看训练误差判断好坏,必须对比验证误差与两者间隙;曲线尚未收敛(仍在下降)时说明数据量不足,先补数据再下结论。
追问
追问 1:如果训练误差和验证误差都很高且接近,加数据有用吗?
没用。这是高偏差/欠拟合的典型表现,模型连训练集都拟合不好,瓶颈在模型容量而非数据量。应先提升模型复杂度、增加有效特征或降低正则,再考虑数据。
追问 2:学习曲线和验证曲线(validation curve)有什么区别?
学习曲线横轴是训练样本量,用于诊断偏差/方差与数据是否够用;验证曲线横轴是某个超参数(如树深度、正则系数 λ),用于为该超参选最优值、观察其对欠拟合/过拟合的影响。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。