核心要点

  • 浅层网络只有 0~1 个隐藏层,深层则多层堆叠(现代 CNN/Transformer 可达数十至数百层)

  • 深层能层次化组合特征(边缘→部件→语义),用更少参数表达复杂函数,这是它的核心优势

  • 浅层训练容易、可解释性好,但对复杂模式表达受限;深层表达强但需 ResNet、BN 等技巧才能稳定训练

  • 能引用通用近似定理(UAT):足够宽的单隐层理论上可逼近任意函数,但深结构在实际数据上更高效、归纳偏置更匹配

简要回答

浅层网络(Shallow):通常 0~1 个隐藏层(如单层感知机、单隐层 MLP);深层网络(Deep)多个隐藏层堆叠(现代 CNN、Transformer 可达数十~数百层)

标准回答

浅层网络(Shallow):通常 0~1 个隐藏层(如单层感知机、单隐层 MLP)。深层网络(Deep)多个隐藏层堆叠(现代 CNN、Transformer 可达数十~数百层)。

对比

维度 浅层 深层
层数
特征 较简单非线性 层次抽象
训练 相对容易 需 ResNet、BN 等
数据 中小可能够 常需大数据
理论 宽网络可 UAT 逼近 某些函数深度更高效

浅层适用:简单模式、小数据、可解释基线、教学演示。

深层适用:图像、语音、NLP 等复杂感知任务;端到端 深度学习 主流范式。

「深」是相对于传统手工特征 + 浅层分类器而言——现代预训练大模型本质是极深 + 极宽。详见 深度学习基础

常见误区

⚠️ 常见踩坑

用绝对层数而不结合任务;说浅层完全过时;忽视浅层在表格/基线中的价值。

追问

追问 1两层算深还是浅?

学术上「深度」通常指 ≥3 层可学习变换(含多个隐藏层);口语中两层 MLP 仍常称浅层。面试应强调相对概念与任务复杂度。

追问 2浅层网络现在还有用吗?

有用。在表格/结构化数据、特征已较好、数据量小、或需要低延迟与可解释性的场景,浅层网络(甚至线性/单隐层 MLP)常是高性价比选择,也是衡量深层模型是否真的更优的强基线。此外,预训练大模型上接的下游分类头往往就是一两层浅网络。局限是面对图像、语音、长文本等需要层次抽象的高维感知任务时表达力不足。

追问 3深但窄 vs 浅但宽?

深度擅组合性特征,宽度增加单层容量。UAT 说宽浅可逼近,但实践中深结构归纳偏置更匹配图像语言等数据。Transformer 两者都大。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • Pytorch

    Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出

  • Tensorflow

    全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具