核心要点

  • 能讲本质:NPU 是面向矩阵乘/卷积的专用加速器,用大量 MAC 阵列并行算神经网络核心算子

  • 能讲能效:以低精度(INT8/INT4)定点运算换取远高于 CPU/GPU 的能效比(每瓦算力

  • 能讲前提:模型算子需能映射到 NPU 支持的算子集,且通常要量化到定点

  • 能讲短板:不支持的算子会回退 CPU、产生数据搬运开销,吞吐受内存带宽与映射质量制约

标准回答

NPU 的原理

NPU(神经处理单元)是专为神经网络设计的加速器,核心是大规模 MAC(乘加)阵列与脉动结构,把卷积、矩阵乘这类主导算子并行化。相比通用 CPU/GPU,它针对固定的计算模式做硬件特化,去掉通用调度开销。

为什么高能效

NPU 主打低精度定点运算(INT8、INT4)。低比特让单位面积可放更多算力、访存带宽需求更低、功耗更小,因此每瓦算力(能效比)远高于浮点通用单元,非常契合电池供电的移动端。

使用前提

要把模型算子映射到 NPU 支持的算子集,并通常将权重/激活量化到定点;运行时(如 NNAPI、Core ML、厂商 SDK)负责把图委托给 NPU。

约束

不被支持的算子会回退到 CPU,引入异构间的数据搬运与同步开销;端侧吞吐还常受内存带宽与算子映射质量制约,需在真机上 profile。

常见误区

⚠️ 常见踩坑

以为「有 NPU 就一定快」——若模型含大量不被支持的算子频繁回退 CPU,或未量化无法走定点通路,加速会大打折扣;也别忽视内存带宽常是端侧真正瓶颈。

追问

追问 1NPU、GPU、DSP 在端侧分别擅长什么?

NPU 针对神经网络定点算子能效最高,适合常驻推理;GPU 通用并行强、算子覆盖广,适合不规则或暂不被 NPU 支持的算子;DSP 擅长信号/向量处理与低功耗常驻。实际部署常异构协同,由运行时按算子把图分派到最合适的单元。

追问 2为什么端侧推理常说瓶颈在内存带宽而非算力?

推理(尤其自回归 LLM解码阶段)多为访存密集:每步都要把权重从内存搬到计算单元,算术强度低,MAC 阵列常等数据。于是带宽与缓存利用率决定实际吞吐,低比特量化、权重复用、KV cache 管理等手段本质都在省带宽。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。