实际项目里如何降低大模型 API 的调用成本？

Question 1

Accepted Answer

成本主要由输入和输出 token 量 × 模型单价决定，从几个方向一起压。 模型路由 / 级联 不是所有请求都用旗舰模型。先让小/便宜模型处理，简单意图、分类、改写交给它；只有它搞不定或置信度低时才升级到大模型。 缩短上下文 prompt 写精炼、删冗余示例；多轮对话做历史摘要或截断；与其塞超长文档，不如用 embedding 检索出最相关的几段拼进去（RAG），既省 token 又更准。 缓存 完全相同的请求直接命中缓存；还可做语义缓存——把问题向量化，相似问题复用已有答案。FAQ、热门问题特别有效。 控制输出与批处理 设 max_tokens 防止啰嗦输出；能合并的请求走批处理；离线任务用更便宜的批量接口。 监控 按功能/用户埋点统计 token 用量和花费，揪出烧钱大户，持续优化。

Question 2

语义缓存怎么做？要注意什么？

Accepted Answer

把问题转 embedding，检索向量库里相似度超阈值的历史问答直接复用。注意：阈值太低会答非所问，要调准；时效性强或个性化的内容（实时数据、含用户隐私）不能缓存；缓存要设过期时间，文档更新后失效旧缓存。

Question 3

降本会不会损失质量？怎么平衡？

Accepted Answer

会有风险，所以每次降本动作（换小模型、砍 prompt）都要在评测集上验证质量不掉到红线以下。做法是先定质量底线指标，再在满足底线的前提下取成本最低方案，对关键链路保留大模型、对长尾简单请求才下沉。

实际项目里如何降低大模型 API 的调用成本？

核心要点

标准回答

常见误区

追问

延伸学习