Global Average Pooling（全局平均池化）

就是把每张特征图的所有格子取个平均，一下子把空间信息压成一个数，省掉了那一大堆全连接层的参数。

亦作、亦称：全局平均池化 · GAP · Global Average Pooling

全局平均池化（GAP）将卷积特征图的空间维度一步压缩为单个均值，是替代全连接层、实现轻量分类头的关键操作。它不仅大幅减少参数，还为类激活图等可解释性方法奠定了基础。

概述

全局平均池化是 CNN 末端的降维模块，将空间特征压缩为类别置信向量。

输入：形如 H×W×C 的特征图（H、W 为空间尺寸，C 为通道数）
操作：对每个通道独立计算所有 H×W 个激活值的算术平均
输出：长度为 C 的一维向量，可直接接 Softmax 分类
由 Min Lin 等人于 2013 年在《Network in Network》中正式提出
已成为 ResNet、GoogLeNet、MobileNet 等主流架构的标准组件

工作原理

GAP 的计算极为简洁，无可学习参数。

设第 k 个特征图大小为 H×W，则 GAP 输出 $z_k = \frac{1}{H \times W} \sum_{i,j} a_k(i,j)$
所有通道的 $z_k$ 拼接成向量后，通过全连接层或直接 Softmax 得到分类概率
无参数：不同于全连接层，GAP 本身不引入任何可训练权重
尺寸无关：输出维度仅取决于通道数 C，与输入分辨率无关，支持任意尺寸图像
反向传播时梯度均匀分配到特征图的每个位置

变体与相关操作

GAP 衍生出多种变体，适应不同任务需求。

Global Max Pooling（GMP）：取每张特征图的最大值，对强激活位置更敏感
Global Average Pooling + 权重：即 CAM（类激活图），用分类层权重对各通道 GAP 值加权，生成热力图
Generalized Mean Pooling（GeM）：引入可学习指数 p，在图像检索领域常用
Attention Pooling：用注意力权重替代均等平均，保留重要区域信息
多尺度 GAP：在不同层提取特征后分别 GAP，再融合，兼顾多粒度信息

应用场景

GAP 广泛应用于各类视觉任务的特征聚合。

图像分类：ResNet、GoogLeNet、EfficientNet 等均以 GAP 替代最后的全连接层
迁移学习：GAP 输出作为通用图像嵌入（embedding），用于下游任务的特征提取
弱监督定位（WSOL）：结合 CAM，仅用图像级标签即可定位物体区域
轻量化部署：移除全连接层后参数量骤降，适合移动端和边缘推理
多标签分类：每个通道对应一个语义类别，GAP 值可直接解释为类别激活强度

与相邻概念的区别

GAP 常与以下操作混淆，需注意区别。

vs 全连接层：全连接层含大量可学习参数且固定输入尺寸；GAP 无参数、尺寸无关，更轻量
vs 普通平均池化：普通平均池化仅缩小空间尺寸（如 2×2→1×1 滑窗）；GAP 一次性将整张特征图压缩为单值
vs Global Max Pooling：GAP 保留全图均值信息，对弥散分布的特征更鲁棒；GMP 只关注峰值激活，适合稀疏特征
vs Flatten：Flatten 保留所有空间位置信息（参数爆炸）；GAP 丢弃空间结构但大幅压缩维度

局限与误区

GAP 并非万能，使用时需注意以下问题。

丢失空间细节：对每个通道取全局平均后，像素级位置信息完全丢失，不适合直接用于检测/分割输出头
误区：GAP 等于普通池化：GAP 是对整张特征图取均值，而非滑动窗口操作，两者机制和输出尺寸均不同
误区：GAP 总能替代 FC 层：在序列或结构化数据场景，GAP 并不适用；此外对极小特征图（如 1×1）效果退化
表达能力受限：均等平均可能稀释关键局部特征，导致细粒度识别任务性能下降
与注意力机制结合：在 ViT 等 Transformer 架构中，GAP 通常被 [CLS] token 或注意力池化取代

发展脉络

GAP 从提出到广泛普及经历了多个关键节点。

2013 年：Min Lin 等人发表《Network in Network》，首次提出以 GAP 替代全连接层，减少参数并增强正则化
2014 年：GoogLeNet（Inception v1）采用 GAP，在 ImageNet 上取得突破性成绩，GAP 进入主流视野
2015 年：ResNet 使用 GAP 作为标准分类头，进一步确立其地位
2016 年：Zhou 等人发表《Learning Deep Features for Discriminative Localization》，提出 CAM，揭示了 GAP 赋予网络的可解释性能力
2017 年至今：MobileNet、EfficientNet 等轻量模型均沿用 GAP；Grad-CAM 等衍生方法将可解释性推广到更多架构

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把每张特征图的所有格子取个平均，一下子把空间信息压成一个数，省掉了那一大堆全连接层的参数。」
「GAP 让每个通道对应一个数字，这个数字代表该特征在整张图上有多活跃，所以网络能直接『看出』哪个特征和哪个类别相关。」
「有人以为 GAP 等于普通平均池化，其实区别在于 GAP 一次性把整张特征图压成单个值，而普通平均池化只是缩小尺寸。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 1 篇文章，帮助深入理解该术语。

1
CNN：卷积神经网络架构详解（基础篇）
从全连接层的缺陷到 ResNet，系统梳理 CNN 的核心组件、经典架构演进与 PyTorch 实战

外部参考

维基百科：查看「Global Average Pooling」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。