核心要点
感受野 = 某层一个输出神经元能"看到"的输入图像区域大小
逐层递推:RF_l = RF_{l-1} + (k_l - 1) × ∏(之前各层 stride),k 为卷积核大小
扩大手段:堆叠更多层、更大卷积核、下采样(池化/stride)、空洞卷积
有效感受野(ERF)通常远小于理论值,且权重近似高斯分布、中心强边缘弱
标准回答
定义
感受野指网络某一层的单个输出神经元,其取值由输入图像上多大范围的像素决定——即它能「看到」的区域。浅层神经元感受野小、只看局部纹理,深层感受野大、能覆盖整个物体甚至全图,对应「浅层学边缘、深层学语义」的层次结构。
如何计算
逐层递推:\(RF_l = RF_{l-1} + (k_l - 1)\times\prod_{i<l} s_i\),其中 \(k_l\) 是第 \(l\) 层卷积核大小,\(\prod s_i\) 是该层之前所有层 stride 的乘积。直觉上:堆叠更多层、用更大的核会线性扩大感受野,而 stride 和池化的下采样会成倍放大它。空洞卷积(dilated conv)能在不增加参数和不下采样的前提下扩大感受野。
有效感受野
理论感受野是上界,实际的「有效感受野(ERF)」往往明显更小,且贡献呈中心强、边缘弱的近高斯分布——边缘像素经过多层后影响被稀释。这解释了为何检测大目标 / 全局上下文任务需要刻意堆大感受野。
常见误区
⚠️ 常见踩坑
把理论感受野当成模型真正利用的范围——有效感受野通常远小于理论值;也别忽视 stride/池化会成倍放大感受野。
追问
追问 1:小目标检测为什么要注意感受野?
小目标只占很少像素,若只在感受野过大的深层特征图上检测,目标细节会被周围背景淹没。因此 FPN 等结构会在浅层(感受野小、分辨率高)特征图上检测小目标,深层检测大目标,做多尺度融合。
追问 2:空洞卷积如何扩大感受野,有何副作用?
空洞卷积在卷积核元素间插入空隙(dilation rate),等效核变大,从而在不增加参数、不降低分辨率的情况下扩大感受野,常用于语义分割。副作用是「网格效应(gridding)」——采样点稀疏会丢失连续局部信息,可用混合 dilation rate 缓解。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。