核心要点

  • 能讲模型分级路由:简单请求用小模型/SLM,复杂请求才升级大模型,按难度路由省成本

  • 能讲缓存:精确缓存(相同请求)、语义缓存(相似请求)、Prompt 前缀缓存(复用 KV Cache

  • 能讲延迟优化:流式输出降感知延迟、并行化独立子任务、缩短输出长度、就近部署

  • 能讲 Prompt/批处理:压缩上下文与少废话、减少检索片段数、对吞吐场景用连续批处理

标准回答

先区分成本与延迟,再分别下手(独占一行)

成本主要由 Token 量 × 单价决定,延迟由模型大小、输出长度、网络与排队共同决定。要按「质量-成本-延迟」三角,针对瓶颈逐项优化。

模型路由与分级

用一个轻量分类器或小模型判断请求难度,简单任务交给小模型/SLM、复杂任务才用大模型;同理可把「判断/路由」用小模型做、「最终合成」用大模型做,显著降本(见 Token 经济学)。

缓存

精确缓存命中相同请求;语义缓存对相似问题复用答案;Prompt 前缀缓存复用固定 system/few-shot 部分的 KV Cache,降低首 Token 时延与成本。

延迟优化

流式输出(streaming)大幅降低用户感知延迟;并行化相互独立的检索/工具调用;控制输出长度、减少 RAG 注入的片段数;选用就近区域部署与更快推理引擎(如 vLLM/TGI)。

Prompt 与批处理

压缩上下文、去冗余指令、用 Prompt 压缩技术;离线/高吞吐场景用批处理与连续批处理(continuous batching)提升 GPU 利用率。

常见误区

⚠️ 常见踩坑

别一上来就「全量换小模型」省钱——盲目降级会损失质量、引发更多重试与人工兜底,反而更贵;应先按请求难度路由,并用评测集守住质量底线。

追问

追问 1语义缓存如何避免「相似但答案不同」的错误命中?

设较高的相似度阈值,并对缓存命中加二次校验(如比对关键实体/约束);对时效性强或带个性化参数的请求禁用缓存,按命中后果分级控制。

追问 2Prompt 前缀缓存为什么能降首 Token 时延?

把固定的 system/few-shot 前缀的 KV Cache 复用,模型无需对这部分重新做 Prefill 计算,直接从缓存继续,减少了首 Token 前的计算量,省时也省成本。

追问 3流式输出降低的是真实延迟还是感知延迟?

主要是感知延迟:用户在首 Token 后即可看到内容逐步产出,总生成时间不变甚至略增,但体验显著改善;对需要完整结构化结果的场景收益有限。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • LangChain

    最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施

  • vLLM

    高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API