标准回答
常见误区
⚠️ 常见踩坑
只盯离线准确率而忽视设备上的内存峰值、发热降频和续航;以及误以为量化、剪枝必然「免费」加速,实际收益高度依赖硬件后端与算子支持。
追问
追问 1:为什么有时量化后体积变小但速度没变快?
加速依赖硬件与运行时是否真正支持低精度算子。若后端把 INT8 算子退回 FP 计算,或存在大量不被支持的算子导致频繁回退/数据搬运,体积虽降但延迟不改善,需选择有 NPU/GPU 委托且算子覆盖好的部署栈。
追问 2:端侧和云端推理如何分工?
常用混合架构:高频、低延迟、隐私敏感、需离线的任务放端侧(小模型);复杂推理、长上下文、需最新知识的任务回落到云端。可按置信度或任务复杂度动态路由,兼顾体验、成本与隐私。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。