标准回答
整体思路
端侧跑 LLM 的关键是把内存占用和访存压到设备能承受的范围。
- 选模型:优先小尺寸模型(SLM),必要时蒸馏/微调到目标任务;
- 量化:权重通常量化到 4bit(如 GGUF/INT4),大幅降低体积与带宽需求,是端侧 LLM 的标配;
- 运行时:用 llama.cpp、MLC LLM、MediaPipe 等专门框架,把算子委托给 GPU/NPU 加速;
- KV cache 管理:缓存历史 key/value 避免重复计算,但它随上下文线性增长占内存,需限制上下文长度或做缓存淘汰/量化。
主要约束
自回归解码是访存密集型,性能瓶颈在内存带宽而非纯算力;长上下文会同时推高 KV cache 内存与延迟;持续生成还受功耗、发热降频与续航限制。因此端侧 LLM 多用于短上下文、低频交互的本地任务,复杂场景回落云端。
常见误区
⚠️ 常见踩坑
只压模型权重却忽视 KV cache 内存——长上下文下 KV cache 可能比权重还吃内存;以及拿端侧 LLM 跑长链复杂推理,忽略发热降频导致的速度骤降。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具