NPU / 移动端推理加速的原理是什么？

Question 1

Accepted Answer

NPU 的原理 NPU（神经处理单元）是专为神经网络设计的加速器，核心是大规模 MAC（乘加）阵列与脉动结构，把卷积、矩阵乘这类主导算子并行化。相比通用 CPU/GPU，它针对固定的计算模式做硬件特化，去掉通用调度开销。 为什么高能效 NPU 主打低精度定点运算（INT8、INT4）。低比特让单位面积可放更多算力、访存带宽需求更低、功耗更小，因此每瓦算力（能效比）远高于浮点通用单元，非常契合电池供电的移动端。 使用前提 要把模型算子映射到 NPU 支持的算子集，并通常将权重/激活量化到定点；运行时（如 NNAPI、Core ML、厂商 SDK）负责把图委托给 NPU。 约束 不被支持的算子会回退到 CPU，引入异构间的数据搬运与同步开销；端侧吞吐还常受内存带宽与算子映射质量制约，需在真机上 profile。

Question 2

NPU、GPU、DSP 在端侧分别擅长什么？

Accepted Answer

NPU 针对神经网络定点算子能效最高，适合常驻推理；GPU 通用并行强、算子覆盖广，适合不规则或暂不被 NPU 支持的算子；DSP 擅长信号/向量处理与低功耗常驻。实际部署常异构协同，由运行时按算子把图分派到最合适的单元。

Question 3

为什么端侧推理常说瓶颈在内存带宽而非算力？

Accepted Answer

推理（尤其自回归 LLM 的解码阶段）多为访存密集：每步都要把权重从内存搬到计算单元，算术强度低，MAC 阵列常等数据。于是带宽与缓存利用率决定实际吞吐，低比特量化、权重复用、KV cache 管理等手段本质都在省带宽。

NPU / 移动端推理加速的原理是什么？

核心要点

标准回答

常见误区

追问

延伸学习