核心要点
CNN 用卷积提取局部空间特征
理解权值共享与平移等变性
适用图像、视频、部分序列/图数据
能与全连接、Transformer 对比选型
标准回答
卷积神经网络(CNN) 专为具有空间或网格结构的数据设计:图像、视频帧、频谱图、甚至 1D 序列。
核心机制:
- 局部连接:每个神经元只看局部 patch
- 权值共享:同一 kernel 扫全图,参数高效
- 平移等变性:目标平移 → 特征图平移
- 层次特征:浅层边缘 → 深层语义
何时使用:
| 任务 | 说明 |
|---|---|
| 图像分类/检测/分割 | 天然首选 |
| 医学影像 | CT/MRI 分析 |
| 视频理解 | 3D 卷积或 2D+时序 |
| 语音 | 1D CNN、MFCC 特征 |
| OCR | 文字区域特征 |
何时慎用:纯表格数据用 MLP/树模型;需全局上下文且有大预训练可考虑 ViT;极小边缘设备需轻量化(MobileNet)。
详见 计算机视觉入门 与 CNN 面试精编。
常见误区
⚠️ 常见踩坑
说 CNN 只能做分类;混淆平移等变与旋转不变;忽视 padding/stride 对输出尺寸影响。
追问
追问 1:CNN 和全连接网络对图像有何区别?
全连接把图像展平,参数量 O(像素×神经元),忽视空间结构;CNN 利用局部性与共享,参数少、泛化好。MNIST 上差异已明显,ImageNet 上 CNN 压倒性优势。
追问 2:空洞卷积解决什么问题?
在不增加池化、不缩小特征图的前提下扩大感受野,语义分割中可捕获多尺度上下文(如 DeepLab 的空洞空间金字塔 ASPP)。相比堆叠大 kernel,参数更少且保持分辨率。
追问 3:现代还需要学 CNN 吗?
题库专题:卷积神经网络(CNN)为什么适合图像任务?需要。虽然 ViT 在大数据上常超过 CNN,但 CNN 仍是中小数据集、边缘/移动端(MobileNet、EfficientNet)、实时检测分割的主力,归纳偏置强、所需数据和算力更少。且 ConvNeXt 等现代卷积网与 ViT 性能相当,卷积思想还融入了混合架构,是必备基础。
题库延伸:与本追问相关的专题题 → 卷积神经网络(CNN)为什么适合图像任务?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Pytorch
Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出
- Tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具