卷积神经网络的感受野（Receptive Field）是什么？如何计算？

Q: 小目标检测为什么要注意感受野？

小目标只占很少像素，若只在感受野过大的深层特征图上检测，目标细节会被周围背景淹没。因此 FPN 等结构会在浅层（感受野小、分辨率高）特征图上检测小目标，深层检测大目标，做多尺度融合。

Q: 空洞卷积如何扩大感受野，有何副作用？

空洞卷积在卷积核元素间插入空隙（dilation rate），等效核变大，从而在不增加参数、不降低分辨率的情况下扩大感受野，常用于语义分割。副作用是「网格效应（gridding）」——采样点稀疏会丢失连续局部信息，可用混合 dilation rate 缓解。

Question 1

卷积神经网络的感受野（Receptive Field）是什么？如何计算？

Accepted Answer

定义

感受野指网络某一层的单个输出神经元，其取值由输入图像上多大范围的像素决定——即它能「看到」的区域。浅层神经元感受野小、只看局部纹理，深层感受野大、能覆盖整个物体甚至全图，对应「浅层学边缘、深层学语义」的层次结构。

如何计算

逐层递推：\(RF_l = RF_{l-1} + (k_l - 1)\times\prod_{i<l} s_i\)，其中 \(k_l\) 是第 \(l\) 层卷积核大小，\(\prod s_i\) 是该层之前所有层 stride 的乘积。直觉上：堆叠更多层、用更大的核会线性扩大感受野，而 stride 和池化的下采样会成倍放大它。空洞卷积（dilated conv）能在不增加参数和不下采样的前提下扩大感受野。

有效感受野

理论感受野是上界，实际的「有效感受野（ERF）」往往明显更小，且贡献呈中心强、边缘弱的近高斯分布——边缘像素经过多层后影响被稀释。这解释了为何检测大目标 / 全局上下文任务需要刻意堆大感受野。

Question 2

小目标检测为什么要注意感受野？

Accepted Answer

小目标只占很少像素，若只在感受野过大的深层特征图上检测，目标细节会被周围背景淹没。因此 FPN 等结构会在浅层（感受野小、分辨率高）特征图上检测小目标，深层检测大目标，做多尺度融合。

Question 3

空洞卷积如何扩大感受野，有何副作用？

Accepted Answer

空洞卷积在卷积核元素间插入空隙（dilation rate），等效核变大，从而在不增加参数、不降低分辨率的情况下扩大感受野，常用于语义分割。副作用是「网格效应（gridding）」——采样点稀疏会丢失连续局部信息，可用混合 dilation rate 缓解。

卷积神经网络的感受野（Receptive Field）是什么？如何计算？

核心要点

标准回答

常见误区

追问

延伸学习