Dropout 层如何帮助防止过拟合？

Question 1

Dropout 层如何帮助防止过拟合？

Accepted Answer

Dropout（Srivastava et al.）是缓解 过拟合 的正则化技术。 机制： - 训练时：以概率 p（如 0.5）随机丢弃神经元输出（置 0） - 推理时：model.eval() 关闭 Dropout，或输出乘以 (1-p) 保持期望一致（PyTorch nn.Dropout 自动处理） 为何有效： 1. 破坏共适应：神经元不能依赖固定搭档，须学鲁棒特征 2. 隐式集成：每步相当于训练不同子网络，推理近似平均 3. 降低有效容量：防止记忆训练集噪声 实践： - 全连接层 p=0.5 常见；CNN 卷积层 p 较小（0.2～0.3）或用在 FC 头 - 与 Batch Normalization、数据增强、权重衰减叠加使用 - 过大 p 导致欠拟合 PyTorch：nn.Dropout(p=0.5)。详见 深度学习训练技巧。

Question 2

Dropout 和 L2 正则有何不同？

Accepted Answer

L2（权重衰减）持续约束权重幅度，让所有权重变小、更平滑；Dropout 通过随机丢弃破坏神经元共适应，近似集成多个子网络。前者作用于权重大小，后者作用于网络连接结构，二者常叠加使用、互补。

Question 3

为什么 eval 模式必须关 Dropout？

Accepted Answer

训练时随机丢弃，推理需确定性输出。eval() 关闭 Dropout 并用训练时 scale 补偿，否则推理输出随机且幅度错误。

Question 4

Dropout 能用在卷积层吗？

Accepted Answer

能，但效果有限：卷积特征图相邻像素强相关，独立置零单个像素仍能由邻居恢复信息。更有效的是 nn.Dropout2d（空间 Dropout），按整张特征图通道丢弃。实践中 CNN 更多靠 Batch Normalization + 数据增强，Dropout 多放在最后的全连接头。

Dropout 层如何帮助防止过拟合？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习