如何优化 LLM 应用的成本与延迟？

Question 1

如何优化 LLM 应用的成本与延迟？

Accepted Answer

先区分成本与延迟，再分别下手（独占一行） 成本主要由 Token 量 × 单价决定，延迟由模型大小、输出长度、网络与排队共同决定。要按「质量-成本-延迟」三角，针对瓶颈逐项优化。 模型路由与分级 用一个轻量分类器或小模型判断请求难度，简单任务交给小模型/SLM、复杂任务才用大模型；同理可把「判断/路由」用小模型做、「最终合成」用大模型做，显著降本（见 Token 经济学）。 缓存 精确缓存命中相同请求；语义缓存对相似问题复用答案；Prompt 前缀缓存复用固定 system/few-shot 部分的 KV Cache，降低首 Token 时延与成本。 延迟优化 流式输出（streaming）大幅降低用户感知延迟；并行化相互独立的检索/工具调用；控制输出长度、减少 RAG 注入的片段数；选用就近区域部署与更快推理引擎（如 vLLM/TGI）。 Prompt 与批处理 压缩上下文、去冗余指令、用 Prompt 压缩技术；离线/高吞吐场景用批处理与连续批处理（continuous batching）提升 GPU 利用率。

Question 2

语义缓存如何避免「相似但答案不同」的错误命中？

Accepted Answer

设较高的相似度阈值，并对缓存命中加二次校验（如比对关键实体/约束）；对时效性强或带个性化参数的请求禁用缓存，按命中后果分级控制。

Question 3

Prompt 前缀缓存为什么能降首 Token 时延？

Accepted Answer

把固定的 system/few-shot 前缀的 KV Cache 复用，模型无需对这部分重新做 Prefill 计算，直接从缓存继续，减少了首 Token 前的计算量，省时也省成本。

Question 4

流式输出降低的是真实延迟还是感知延迟？

Accepted Answer

主要是感知延迟：用户在首 Token 后即可看到内容逐步产出，总生成时间不变甚至略增，但体验显著改善；对需要完整结构化结果的场景收益有限。

如何优化 LLM 应用的成本与延迟？

核心要点

标准回答

常见误区

追问

延伸学习