标准回答
成本主要由输入和输出 token 量 × 模型单价决定,从几个方向一起压。
模型路由 / 级联
不是所有请求都用旗舰模型。先让小/便宜模型处理,简单意图、分类、改写交给它;只有它搞不定或置信度低时才升级到大模型。
缩短上下文
prompt 写精炼、删冗余示例;多轮对话做历史摘要或截断;与其塞超长文档,不如用 embedding 检索出最相关的几段拼进去(RAG),既省 token 又更准。
缓存
完全相同的请求直接命中缓存;还可做语义缓存——把问题向量化,相似问题复用已有答案。FAQ、热门问题特别有效。
控制输出与批处理
设 max_tokens 防止啰嗦输出;能合并的请求走批处理;离线任务用更便宜的批量接口。
监控
按功能/用户埋点统计 token 用量和花费,揪出烧钱大户,持续优化。
常见误区
⚠️ 常见踩坑
只盯着「换便宜模型」一个手段,忽视 prompt 太长、重复调用、输出不限长这些更大的浪费;以及上了缓存却不做语义匹配,命中率极低。
追问
追问 1:语义缓存怎么做?要注意什么?
把问题转 embedding,检索向量库里相似度超阈值的历史问答直接复用。注意:阈值太低会答非所问,要调准;时效性强或个性化的内容(实时数据、含用户隐私)不能缓存;缓存要设过期时间,文档更新后失效旧缓存。
追问 2:降本会不会损失质量?怎么平衡?
会有风险,所以每次降本动作(换小模型、砍 prompt)都要在评测集上验证质量不掉到红线以下。做法是先定质量底线指标,再在满足底线的前提下取成本最低方案,对关键链路保留大模型、对长尾简单请求才下沉。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。