手撕代码：实现 Dropout（训练与推理）

Question 1

手撕代码：实现 Dropout（训练与推理）？

Accepted Answer

Dropout 是一种正则化方法，训练时随机让一部分神经元失活，迫使网络不过度依赖个别神经元，从而缓解过拟合。现代实现采用「反向 Dropout（inverted dropout）」：训练阶段以保留概率 p 生成 0/1 掩码置零部分激活，并把保留下来的激活乘以 1/p 来补偿被丢弃部分、保持输出期望不变；这样推理阶段就可以直接恒等输出，无需任何缩放，工程上更简洁。下面用 NumPy 实现：

Question 2

为什么要除以 p（反向 Dropout）？不除会怎样？

Accepted Answer

不缩放时训练输出的期望是推理的 p 倍，训推分布不一致。早期做法是推理时把权重乘以 p 来对齐，但需要在推理多做一步。反向 Dropout 把补偿放到训练阶段（乘 1/p），让推理保持恒等、零开销，是当前主流实现。

Question 3

Dropout 和 BatchNorm 一起用要注意什么？

Accepted Answer

两者叠加可能因方差偏移相互干扰，实践中常见做法是减少同时使用，或把 Dropout 放在 BN 之后；很多 CNN 直接用 BN 而省略 Dropout。此外 Transformer 中 Dropout 常用在注意力权重和残差分支上，需谨慎调比例。

手撕代码：实现 Dropout（训练与推理）

核心要点

标准回答

常见误区

追问

延伸学习