Dropout

训练时随机关掉神经元

亦作、亦称：随机失活

Dropout 是深度学习中一种经典正则化手段，训练时以概率 p 随机将部分神经元的输出置零，迫使网络学习冗余且分散的特征表示，从而有效缓解过拟合。它在 2014 年系统确立，至今仍是中小规模模型训练的核心工具之一。

概述

Dropout 通过在训练中随机「关闭」神经元，强迫网络不依赖任何单一路径来完成任务。

核心目标：缓解过拟合，提升模型在未见数据上的泛化能力。
丢弃率 p：常见取值范围 0.1–0.5，全连接层常用 0.5，Transformer 中常用 0.1。
训练 vs 推理：训练时随机屏蔽神经元；推理时关闭 Dropout，所有神经元均参与计算。
框架支持：PyTorch 通过 model.train() / model.eval() 切换模式；忘记调用 eval() 是常见的工程陷阱。
历史地位：是 2012 年 AlexNet 在 ImageNet 上大幅领先的关键技术之一，推动了深度学习复兴。

Dropout 在每次前向传播时对层内神经元独立采样，以随机掩码控制哪些神经元激活。

标准 Dropout 面向全连接层神经元，针对不同网络结构发展出多种变体。

Spatial Dropout（2D Dropout）：针对 CNN，按整个特征图通道随机丢弃，保留空间结构一致性，适合卷积层。
DropConnect：丢弃的是权重连接而非激活值，正则化效果更细粒度，但计算开销更高。
Attention Dropout：在 Transformer 的注意力权重矩阵上施加掩码，BERT、GPT 等模型均有使用。
DropPath（Stochastic Depth）：随机丢弃整个残差块，由 2016 年提出，被 DeiT、Swin Transformer 等视觉模型广泛采用。
MC Dropout：推理时保留 Dropout 开启，多次前向传播取均值与方差，用于估计模型不确定性（贝叶斯近似）。

Dropout 在不同规模和类型的模型中应用效果存在显著差异。

Dropout 属于神经元级别的随机正则化，与其他正则化手段在机制和适用层上有明显区别。

Dropout vs L2 正则化（Weight Decay）：L2 直接惩罚权重大小，是显式正则化；Dropout 通过随机性隐式约束，更适合全连接层的神经元级别控制，两者可叠加使用。
Dropout vs Batch Normalization：BatchNorm 通过归一化减少内部协变量偏移，侧重训练稳定性；Dropout 侧重防止过拟合；同时使用时在某些 CNN 结构中存在相互干扰，需实验验证。
Dropout vs 数据增强：数据增强在输入空间引入随机性，Dropout 在网络内部引入随机性，两者互补。
Dropout vs Early Stopping：Early Stopping 通过停止训练来防止过拟合；Dropout 在整个训练过程中持续施加约束，两种策略可并用。

Dropout 虽然简单有效，但存在若干需要注意的边界条件与常见误用。

忘记切换 eval 模式：推理时未调用 model.eval() 导致 Dropout 仍然激活，输出随机性强、性能下降，是最高频的工程错误。
丢弃率选择：p 过高导致欠拟合，过低效果有限；需在验证集上调参，不可直接套用默认值。
大模型收益递减：数据量充足时 Dropout 可能拖慢收敛速度，GPT 系列后期及 LLaMA 等大模型普遍减少使用。
与 BatchNorm 的兼容性：二者同时存在于同一网络时，训练与推理的统计特性差异可能导致性能下降，尤其在卷积网络中需谨慎验证。
RNN 中的特殊处理：标准 Dropout 作用于时间步之间会破坏序列信息；需使用「变分 Dropout」（同一样本在所有时间步共享同一掩码）以避免损害梯度流。

Dropout 从初步应用到系统理论化历时数年，推动了深度学习正则化研究的快速发展。

2012：Geoffrey Hinton 团队在 AlexNet 中使用 Dropout，以大幅优势赢得 ImageNet LSVRC 竞赛，引发深度学习热潮。
2014：Srivastava、Hinton 等人发表 JMLR 论文《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》，系统阐述原理与实验，成为引用最高的深度学习论文之一。
2015：Spatial Dropout 和 DropConnect 等变体相继提出，将 Dropout 思想扩展到卷积层和权重级别。
2016：Stochastic Depth（DropPath） 提出，随机丢弃整个残差块，成为后续视觉 Transformer 的标配正则化手段。
2016：Yarin Gal 等人提出 MC Dropout，将 Dropout 解释为贝叶斯近似，开创了深度学习不确定性估计的新方向。
2018 至今：BERT、GPT 等大规模预训练语言模型普遍采用低丢弃率 Dropout；随着模型规模不断扩大，Dropout 在预训练阶段的使用趋于减少，但在微调和下游任务中仍被广泛保留。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。