深度可分离卷积与 1×1 卷积如何降低计算量？

Question 1

Accepted Answer

深度可分离卷积的拆分 标准卷积同时在空间维和通道维做加权求和。深度可分离卷积把它拆成两步：先用 depthwise 卷积，对每个输入通道单独做一个 $D_k \times D_k$ 的空间卷积（不跨通道）；再用 pointwise（即 1×1）卷积，在每个空间位置做跨通道的线性组合，得到输出通道。 计算量对比 设卷积核 $D_k \times D_k$、输入通道 M、输出通道 N。标准卷积计算量正比于 $D_k^2 \cdot M \cdot N$；可分离后为 $D_k^2 \cdot M + M \cdot N$。两者之比约为 $1/N + 1/D_k^2$。对 3×3 卷积、N 较大时，约能省下 8–9 倍计算量与参数量，非常适合端侧。 1×1 卷积的作用 1×1 卷积本质是在通道维做线性组合：可用于通道融合、升降维构造瓶颈（先降维省算力再升回）、配合激活增加非线性，以及在可分离卷积里承担跨通道信息交互的角色。

Question 2

为什么 depthwise 卷积单独用效果差，必须配 1×1？

Accepted Answer

depthwise 只在各通道内部做空间滤波，通道之间没有任何信息融合，特征表达受限。1×1 pointwise 卷积负责跨通道线性组合，把各通道信息混合起来，二者配合才能近似标准卷积的表达能力。

Question 3

可分离卷积 FLOPs 降了很多，实际推理为什么没快那么多？

Accepted Answer

因为它是访存（memory-bound）密集型：计算量小但中间特征图读写多，算术强度低，GPU/CPU 利用率不高。实际加速比受硬件、算子实现和通道数影响，常低于理论 FLOPs 降幅。

深度可分离卷积与 1×1 卷积如何降低计算量？

核心要点

标准回答

常见误区

追问

延伸学习