什么是卷积神经网络（CNN）？何时使用？

Question 1

Accepted Answer

卷积神经网络（CNN） 专为具有空间或网格结构的数据设计：图像、视频帧、频谱图、甚至 1D 序列。 核心机制： - 局部连接：每个神经元只看局部 patch - 权值共享：同一 kernel 扫全图，参数高效 - 平移等变性：目标平移 → 特征图平移 - 层次特征：浅层边缘 → 深层语义 何时使用： 任务 说明 ------ ------ 图像分类/检测/分割 天然首选 医学影像 CT/MRI 分析 视频理解 3D 卷积或 2D+时序 语音 1D CNN、MFCC 特征 OCR 文字区域特征 何时慎用：纯表格数据用 MLP/树模型；需全局上下文且有大预训练可考虑 ViT；极小边缘设备需轻量化（MobileNet）。 详见 计算机视觉入门 与 CNN 面试精编。

Question 2

CNN 和全连接网络对图像有何区别？

Accepted Answer

全连接把图像展平，参数量 O(像素×神经元)，忽视空间结构；CNN 利用局部性与共享，参数少、泛化好。MNIST 上差异已明显，ImageNet 上 CNN 压倒性优势。

Question 3

空洞卷积解决什么问题？

Accepted Answer

在不增加池化、不缩小特征图的前提下扩大感受野，语义分割中可捕获多尺度上下文（如 DeepLab 的空洞空间金字塔 ASPP）。相比堆叠大 kernel，参数更少且保持分辨率。

Question 4

现代还需要学 CNN 吗？

Accepted Answer

需要。虽然 ViT 在大数据上常超过 CNN，但 CNN 仍是中小数据集、边缘/移动端（MobileNet、EfficientNet）、实时检测分割的主力，归纳偏置强、所需数据和算力更少。且 ConvNeXt 等现代卷积网与 ViT 性能相当，卷积思想还融入了混合架构，是必备基础。

题库延伸：与本追问相关的专题题 → 卷积神经网络（CNN）为什么适合图像任务？

什么是卷积神经网络（CNN）？何时使用？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


任务	说明
图像分类/检测/分割	天然首选
医学影像	CT/MRI 分析
视频理解	3D 卷积或 2D+时序
语音	1D CNN、MFCC 特征
OCR	文字区域特征