深度学习中的「深度」指什么？

Question 1

深度学习中的「深度」指什么？

Accepted Answer

在 深度学习 语境下，depth（深度） 通常指 神经网络 中可学习变换的层数（隐藏层 + 输出层前的特征提取栈），是「深」学习区别于浅层模型的核心特征。 为何重要：更深的网络可通过层次组合表达更复杂的非线性函数——浅层学局部模式，深层学抽象语义（如 CNN 中边缘→部件→物体）。理论上，足够宽的单隐层也能逼近任意函数（通用近似定理），但深层结构往往用更少参数达到同等表达能力。 训练挑战：层数增加时 反向传播 的梯度连乘易导致 梯度消失；同时优化景观更复杂。现代实践靠 ReLU 族激活、Batch Normalization、残差连接（ResNet）、更好的初始化与优化器使百层网络可训。 维度 浅层网络 深层网络 ------ ---------- ---------- 层数 1～2 隐层 数十～数百层 特征 手工/浅层特征 端到端层次特征 训练 相对容易 需专门技巧 详见 深度学习基础 与 反向传播原理。

Question 2

深度和宽度哪个对模型容量影响更大？

Accepted Answer

两者都增加容量，但作用不同：深度擅长层次化组合特征，宽度增加每层的并行表达能力。实践中常先加深再加宽；极宽浅网可能不如适中深度+宽度的网络高效。Transformer 类模型近年趋势是「更深更宽」配合大规模数据。

Question 3

为什么 2000 年代深层网络训不动，2012 年后又复兴？

Accepted Answer

早期 sigmoid/tanh 饱和导致梯度消失，算力与数据也不足。AlexNet 结合 ReLU、Dropout、GPU 并行与 ImageNet 大数据证明深层 CNN 可行；随后 ResNet 用跳跃连接解决退化问题，深度学习进入爆发期。

Question 4

Information Bottleneck 与深度的关系？

Accepted Answer

信息瓶颈理论认为训练过程中层会压缩输入中与标签无关的信息、保留预测相关部分。深度网络通过多层瓶颈逐步提炼表示；过深或过浅都可能破坏这种压缩-预测平衡，需结合任务与正则化调节。

深度学习中的「深度」指什么？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	浅层网络	深层网络
层数	1～2 隐层	数十～数百层
特征	手工/浅层特征	端到端层次特征
训练	相对容易	需专门技巧