标准回答
NPU 的原理
NPU(神经处理单元)是专为神经网络设计的加速器,核心是大规模 MAC(乘加)阵列与脉动结构,把卷积、矩阵乘这类主导算子并行化。相比通用 CPU/GPU,它针对固定的计算模式做硬件特化,去掉通用调度开销。
为什么高能效
NPU 主打低精度定点运算(INT8、INT4)。低比特让单位面积可放更多算力、访存带宽需求更低、功耗更小,因此每瓦算力(能效比)远高于浮点通用单元,非常契合电池供电的移动端。
使用前提
要把模型算子映射到 NPU 支持的算子集,并通常将权重/激活量化到定点;运行时(如 NNAPI、Core ML、厂商 SDK)负责把图委托给 NPU。
约束
不被支持的算子会回退到 CPU,引入异构间的数据搬运与同步开销;端侧吞吐还常受内存带宽与算子映射质量制约,需在真机上 profile。
常见误区
⚠️ 常见踩坑
以为「有 NPU 就一定快」——若模型含大量不被支持的算子频繁回退 CPU,或未量化无法走定点通路,加速会大打折扣;也别忽视内存带宽常是端侧真正瓶颈。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。