如何判断和处理过拟合？

Question 1

如何判断和处理过拟合？

Accepted Answer

如何判断 绘制训练集 vs 验证集的 loss/accuracy 学习曲线：训练指标持续变好、而验证指标停滞甚至回升、两者差距越来越大，即为过拟合（与之相对，两者都差是欠拟合）。 处理手段（从高方差角度对症） - 加数据 / 数据增强：扩大有效样本，通常最有效。 - 正则化：L2 约束权重幅度使解更平滑，L1 产生稀疏解。 - Dropout：训练时随机丢弃神经元，相当于隐式集成。 - 早停（Early Stopping）：验证指标不再提升就停，防止后期记噪声。 - 简化模型：减少层数/参数，降低容量。 - 集成（Bagging）：多模型平均降方差。 选型原则：数据量小优先补数据，模型过大优先降容量/加 Dropout，再用早停兜底，避免一次堆叠过多正则导致欠拟合。

Question 2

Dropout 在推理时如何处理？

Accepted Answer

训练时随机丢弃神经元并缩放激活（inverted dropout）；推理时关闭 Dropout，使用全部神经元，权重不再额外缩放（PyTorch 的 nn.Dropout 自动处理 train/eval 模式切换）。

Question 3

L1 和 L2 正则效果有何不同？

Accepted Answer

L2（权重衰减）惩罚大权重，使参数整体缩小，解更平滑；L1 产生稀疏解，可做特征选择。深度学习常用 L2/weight decay；L1 在稀疏建模、可解释性场景更常见。

如何判断和处理过拟合？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习