核心要点
能定义 depth = 网络隐藏层/可学习变换的层数
理解深度与表达能力、训练难度的权衡
知道 ResNet、BatchNorm 等使深层网络可训的关键技术
能区分 depth 与 width(宽度)对容量的不同影响
标准回答
在 深度学习 语境下,depth(深度) 通常指 神经网络 中可学习变换的层数(隐藏层 + 输出层前的特征提取栈),是「深」学习区别于浅层模型的核心特征。
为何重要:更深的网络可通过层次组合表达更复杂的非线性函数——浅层学局部模式,深层学抽象语义(如 CNN 中边缘→部件→物体)。理论上,足够宽的单隐层也能逼近任意函数(通用近似定理),但深层结构往往用更少参数达到同等表达能力。
训练挑战:层数增加时 反向传播 的梯度连乘易导致 梯度消失;同时优化景观更复杂。现代实践靠 ReLU 族激活、Batch Normalization、残差连接(ResNet)、更好的初始化与优化器使百层网络可训。
| 维度 | 浅层网络 | 深层网络 |
|---|---|---|
| 层数 | 1~2 隐层 | 数十~数百层 |
| 特征 | 手工/浅层特征 | 端到端层次特征 |
| 训练 | 相对容易 | 需专门技巧 |
追问
追问 1:深度和宽度哪个对模型容量影响更大?
两者都增加容量,但作用不同:深度擅长层次化组合特征,宽度增加每层的并行表达能力。实践中常先加深再加宽;极宽浅网可能不如适中深度+宽度的网络高效。Transformer 类模型近年趋势是「更深更宽」配合大规模数据。
追问 2:为什么 2000 年代深层网络训不动,2012 年后又复兴?
早期 sigmoid/tanh 饱和导致梯度消失,算力与数据也不足。AlexNet 结合 ReLU、Dropout、GPU 并行与 ImageNet 大数据证明深层 CNN 可行;随后 ResNet 用跳跃连接解决退化问题,深度学习进入爆发期。
追问 3:Information Bottleneck 与深度的关系?
信息瓶颈理论认为训练过程中层会压缩输入中与标签无关的信息、保留预测相关部分。深度网络通过多层瓶颈逐步提炼表示;过深或过浅都可能破坏这种压缩-预测平衡,需结合任务与正则化调节。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
📰 AI 资讯
🛠️ AI 工具
- Pytorch
Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出
- Tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具