Global Average Pooling(全局平均池化)
就是把每张特征图的所有格子取个平均,一下子把空间信息压成一个数,省掉了那一大堆全连接层的参数。
亦作、亦称:全局平均池化 · GAP · Global Average Pooling
全局平均池化(GAP)将卷积特征图的空间维度一步压缩为单个均值,是替代全连接层、实现轻量分类头的关键操作。它不仅大幅减少参数,还为类激活图等可解释性方法奠定了基础。
概述
全局平均池化是 CNN 末端的降维模块,将空间特征压缩为类别置信向量。
- 输入:形如 H×W×C 的特征图(H、W 为空间尺寸,C 为通道数)
- 操作:对每个通道独立计算所有 H×W 个激活值的算术平均
- 输出:长度为 C 的一维向量,可直接接 Softmax 分类
- 由 Min Lin 等人于 2013 年在《Network in Network》中正式提出
- 已成为 ResNet、GoogLeNet、MobileNet 等主流架构的标准组件
工作原理
GAP 的计算极为简洁,无可学习参数。
- 设第 k 个特征图大小为 H×W,则 GAP 输出 $z_k = \frac{1}{H \times W} \sum_{i,j} a_k(i,j)$
- 所有通道的 $z_k$ 拼接成向量后,通过全连接层或直接 Softmax 得到分类概率
- 无参数:不同于全连接层,GAP 本身不引入任何可训练权重
- 尺寸无关:输出维度仅取决于通道数 C,与输入分辨率无关,支持任意尺寸图像
- 反向传播时梯度均匀分配到特征图的每个位置
变体与相关操作
GAP 衍生出多种变体,适应不同任务需求。
- Global Max Pooling(GMP):取每张特征图的最大值,对强激活位置更敏感
- Global Average Pooling + 权重:即 CAM(类激活图),用分类层权重对各通道 GAP 值加权,生成热力图
- Generalized Mean Pooling(GeM):引入可学习指数 p,在图像检索领域常用
- Attention Pooling:用注意力权重替代均等平均,保留重要区域信息
- 多尺度 GAP:在不同层提取特征后分别 GAP,再融合,兼顾多粒度信息
应用场景
GAP 广泛应用于各类视觉任务的特征聚合。
- 图像分类:ResNet、GoogLeNet、EfficientNet 等均以 GAP 替代最后的全连接层
- 迁移学习:GAP 输出作为通用图像嵌入(embedding),用于下游任务的特征提取
- 弱监督定位(WSOL):结合 CAM,仅用图像级标签即可定位物体区域
- 轻量化部署:移除全连接层后参数量骤降,适合移动端和边缘推理
- 多标签分类:每个通道对应一个语义类别,GAP 值可直接解释为类别激活强度
与相邻概念的区别
GAP 常与以下操作混淆,需注意区别。
- vs 全连接层:全连接层含大量可学习参数且固定输入尺寸;GAP 无参数、尺寸无关,更轻量
- vs 普通平均池化:普通平均池化仅缩小空间尺寸(如 2×2→1×1 滑窗);GAP 一次性将整张特征图压缩为单值
- vs Global Max Pooling:GAP 保留全图均值信息,对弥散分布的特征更鲁棒;GMP 只关注峰值激活,适合稀疏特征
- vs Flatten:Flatten 保留所有空间位置信息(参数爆炸);GAP 丢弃空间结构但大幅压缩维度
局限与误区
GAP 并非万能,使用时需注意以下问题。
- 丢失空间细节:对每个通道取全局平均后,像素级位置信息完全丢失,不适合直接用于检测/分割输出头
- 误区:GAP 等于普通池化:GAP 是对整张特征图取均值,而非滑动窗口操作,两者机制和输出尺寸均不同
- 误区:GAP 总能替代 FC 层:在序列或结构化数据场景,GAP 并不适用;此外对极小特征图(如 1×1)效果退化
- 表达能力受限:均等平均可能稀释关键局部特征,导致细粒度识别任务性能下降
- 与注意力机制结合:在 ViT 等 Transformer 架构中,GAP 通常被 [CLS] token 或注意力池化取代
发展脉络
GAP 从提出到广泛普及经历了多个关键节点。
- 2013 年:Min Lin 等人发表《Network in Network》,首次提出以 GAP 替代全连接层,减少参数并增强正则化
- 2014 年:GoogLeNet(Inception v1)采用 GAP,在 ImageNet 上取得突破性成绩,GAP 进入主流视野
- 2015 年:ResNet 使用 GAP 作为标准分类头,进一步确立其地位
- 2016 年:Zhou 等人发表《Learning Deep Features for Discriminative Localization》,提出 CAM,揭示了 GAP 赋予网络的可解释性能力
- 2017 年至今:MobileNet、EfficientNet 等轻量模型均沿用 GAP;Grad-CAM 等衍生方法将可解释性推广到更多架构
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是把每张特征图的所有格子取个平均,一下子把空间信息压成一个数,省掉了那一大堆全连接层的参数。」
- 「GAP 让每个通道对应一个数字,这个数字代表该特征在整张图上有多活跃,所以网络能直接『看出』哪个特征和哪个类别相关。」
- 「有人以为 GAP 等于普通平均池化,其实区别在于 GAP 一次性把整张特征图压成单个值,而普通平均池化只是缩小尺寸。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 1 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「Global Average Pooling」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。