常见误区
⚠️ 常见踩坑
混淆 bias 与 BatchNorm 的 β;认为 bias 不重要全置零;忽视权重衰减只谈结构。
追问
追问 1:可以不要偏置吗?
可以(bias=False),如某些 BN 后接 Conv 为减参;但多数全连接/卷积默认含 bias。无 bias 时模型表达能力略受限,数据已中心化时影响较小。
追问 2:权重共享时 bias 也共享吗?
CNN 卷积核权值共享,但每个输出通道通常有独立 bias(每个 filter 一个)。深度可分离卷积中 bias 行为类似。
追问 3:初始化为什么重要?
初始化决定前向激活和反向梯度的初始方差。全置零会让同层神经元梯度完全相同、永远学成一样(对称性无法打破);太大易激活饱和或梯度爆炸,太小则梯度消失。Xavier/Glorot 按扇入扇出缩放适配 tanh/sigmoid,He 初始化针对 ReLU 把方差放大一倍以补偿其置零一半激活的效应,让深层网络从一开始就能稳定传播信号。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
📰 AI 资讯
🛠️ AI 工具
- Pytorch
Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出
- Tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具