核心要点

  • CNN 用卷积提取局部空间特征

  • 理解权值共享与平移等变性

  • 适用图像、视频、部分序列/图数据

  • 能与全连接、Transformer 对比选型

简要回答

卷积神经网络(CNN) 专为具有空间或网格结构的数据设计:图像、视频帧、频谱图、甚至 1D 序列;

核心机制

  • 局部连接:每个神经元只看局部 patch
  • 权值共享:同一 kernel 扫全图,参数高效
  • 平移等变性:目标平移 → 特征图平移
  • 层次特征:浅层边缘 → 深层语义

何时使用

任务 说明
图像分类/检测/分割 天然首选
医学影像 CT/MRI 分析
视频理解 3D 卷积或 2D+时序
语音 1D CNN、MFCC 特征
OCR 文字区域特征

何时慎用:纯表格数据用 MLP/树模型

标准回答

卷积神经网络(CNN) 专为具有空间或网格结构的数据设计:图像、视频帧、频谱图、甚至 1D 序列。

核心机制

  • 局部连接:每个神经元只看局部 patch
  • 权值共享:同一 kernel 扫全图,参数高效
  • 平移等变性:目标平移 → 特征图平移
  • 层次特征:浅层边缘 → 深层语义

何时使用

任务 说明
图像分类/检测/分割 天然首选
医学影像 CT/MRI 分析
视频理解 3D 卷积或 2D+时序
语音 1D CNN、MFCC 特征
OCR 文字区域特征

何时慎用:纯表格数据用 MLP/树模型;需全局上下文且有大预训练可考虑 ViT;极小边缘设备需轻量化(MobileNet)。

详见 计算机视觉入门 与 CNN 面试精编。

常见误区

⚠️ 常见踩坑

说 CNN 只能做分类;混淆平移等变与旋转不变;忽视 padding/stride 对输出尺寸影响。

追问

追问 1CNN 和全连接网络对图像有何区别?

全连接把图像展平,参数量 O(像素×神经元),忽视空间结构;CNN 利用局部性与共享,参数少、泛化好。MNIST 上差异已明显,ImageNet 上 CNN 压倒性优势。

追问 2空洞卷积解决什么问题?

在不增加池化、不缩小特征图的前提下扩大感受野,语义分割中可捕获多尺度上下文(如 DeepLab 的空洞空间金字塔 ASPP)。相比堆叠大 kernel,参数更少且保持分辨率。

追问 3现代还需要学 CNN 吗?

题库专题:卷积神经网络(CNN)为什么适合图像任务?

需要。虽然 ViT 在大数据上常超过 CNN,但 CNN 仍是中小数据集、边缘/移动端(MobileNet、EfficientNet)、实时检测分割的主力,归纳偏置强、所需数据和算力更少。且 ConvNeXt 等现代卷积网与 ViT 性能相当,卷积思想还融入了混合架构,是必备基础。

题库延伸:与本追问相关的专题题 → 卷积神经网络(CNN)为什么适合图像任务?

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • Pytorch

    Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出

  • Tensorflow

    全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具