核心要点

  • 感受野 = 某层一个输出神经元能"看到"的输入图像区域大小

  • 逐层递推:RF_l = RF_{l-1} + (k_l - 1) × ∏(之前各层 stride),k 为卷积核大小

  • 扩大手段:堆叠更多层、更大卷积核、下采样(池化/stride)、空洞卷积

  • 有效感受野(ERF)通常远小于理论值,且权重近似高斯分布、中心强边缘弱

标准回答

定义

感受野指网络某一层的单个输出神经元,其取值由输入图像上多大范围的像素决定——即它能「看到」的区域。浅层神经元感受野小、只看局部纹理,深层感受野大、能覆盖整个物体甚至全图,对应「浅层学边缘、深层学语义」的层次结构。

如何计算

逐层递推:\(RF_l = RF_{l-1} + (k_l - 1)\times\prod_{i<l} s_i\),其中 \(k_l\) 是第 \(l\) 层卷积核大小,\(\prod s_i\) 是该层之前所有层 stride 的乘积。直觉上:堆叠更多层、用更大的核会线性扩大感受野,而 stride 和池化的下采样会成倍放大它。空洞卷积(dilated conv)能在不增加参数和不下采样的前提下扩大感受野。

有效感受野

理论感受野是上界,实际的「有效感受野(ERF)」往往明显更小,且贡献呈中心强、边缘弱的近高斯分布——边缘像素经过多层后影响被稀释。这解释了为何检测大目标 / 全局上下文任务需要刻意堆大感受野。

常见误区

⚠️ 常见踩坑

把理论感受野当成模型真正利用的范围——有效感受野通常远小于理论值;也别忽视 stride/池化会成倍放大感受野。

追问

追问 1小目标检测为什么要注意感受野?

小目标只占很少像素,若只在感受野过大的深层特征图上检测,目标细节会被周围背景淹没。因此 FPN 等结构会在浅层(感受野小、分辨率高)特征图上检测小目标,深层检测大目标,做多尺度融合。

追问 2空洞卷积如何扩大感受野,有何副作用?

空洞卷积在卷积核元素间插入空隙(dilation rate),等效核变大,从而在不增加参数、不降低分辨率的情况下扩大感受野,常用于语义分割。副作用是「网格效应(gridding)」——采样点稀疏会丢失连续局部信息,可用混合 dilation rate 缓解。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。