核心要点

  • 能说出成本来源:成本 = 输入 token + 输出 token,按模型单价计,所以从「少 token、便宜模型、少调用」三方面砍

  • 能给路由策略:简单任务下沉到小/便宜模型,难任务才用大模型(级联/路由)

  • 能用缓存:相同或语义相近的请求走缓存,不重复调用

  • 能从工程侧省:缩短 prompt 与上下文、限制 max_tokens、批处理、用检索代替长上下文、监控 token 用量

标准回答

成本主要由输入和输出 token 量 × 模型单价决定,从几个方向一起压。

模型路由 / 级联

不是所有请求都用旗舰模型。先让小/便宜模型处理,简单意图、分类、改写交给它;只有它搞不定或置信度低时才升级到大模型。

缩短上下文

prompt 写精炼、删冗余示例;多轮对话做历史摘要或截断;与其塞超长文档,不如用 embedding 检索出最相关的几段拼进去(RAG),既省 token 又更准。

缓存

完全相同的请求直接命中缓存;还可做语义缓存——把问题向量化,相似问题复用已有答案。FAQ、热门问题特别有效。

控制输出与批处理

设 max_tokens 防止啰嗦输出;能合并的请求走批处理;离线任务用更便宜的批量接口。

监控

按功能/用户埋点统计 token 用量和花费,揪出烧钱大户,持续优化。

常见误区

⚠️ 常见踩坑

只盯着「换便宜模型」一个手段,忽视 prompt 太长、重复调用、输出不限长这些更大的浪费;以及上了缓存却不做语义匹配,命中率极低。

追问

追问 1语义缓存怎么做?要注意什么?

把问题转 embedding,检索向量库里相似度超阈值的历史问答直接复用。注意:阈值太低会答非所问,要调准;时效性强或个性化的内容(实时数据、含用户隐私)不能缓存;缓存要设过期时间,文档更新后失效旧缓存。

追问 2降本会不会损失质量?怎么平衡?

会有风险,所以每次降本动作(换小模型、砍 prompt)都要在评测集上验证质量不掉到红线以下。做法是先定质量底线指标,再在满足底线的前提下取成本最低方案,对关键链路保留大模型、对长尾简单请求才下沉。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。