标准回答
背景:企业 AI 支出正在失控
2026 年 Forrester 数据显示 78% 企业 AI 预算超支 47%。Uber 4 个月烧光全年 AI 预算,亚马逊员工为刷 Tokenmaxxing 排行榜消耗无意义 Token。企业必须从"Token 最大化"转向"效率优先"。
系统架构(四层)
第一层:预算网关(Budget Gateway)
- 每个团队/项目配置月度 Token 预算上限,支持分级(基础/标准/旗舰)
- 请求经过网关时先扣减预算余额,超额后自动降级到免费/低成本模型或拒绝
- 类似 API Gateway 的 rate limiting,但维度是 Token 成本而非 QPS
第二层:智能路由(Model Router)
- 用轻量分类器(<100M 参数)判断请求难度:简单问答→Flash/SLM、复杂推理→旗舰模型
- 路由策略:成本敏感场景优先小模型,质量敏感场景(如代码生成、法律文档)才用大模型
- 参考 OpenRouter 的模型市场,按性价比动态调整路由权重
第三层:缓存层(Cache Layer)
- 精确缓存:相同 prompt+temperature=0 的请求直接返回
- 语义缓存:embedding 相似度 > 0.95 的请求复用答案(需二次校验关键实体)
- Prompt 前缀缓存:复用 system prompt 和 few-shot 的 KV Cache,降首 Token 延迟和成本
第四层:可观测性(Observability)
- 按部门/模型/任务类型实时统计 Token 消耗和成本
- 异常检测:某团队 Token 用量突增 3x → 自动告警 + 临时降级
- 周报:成本趋势、模型使用分布、缓存命中率、质量评测分数
质量守底
不能无脑降本——设评测集(每模型每任务 50-100 条),路由降级后质量下降 >5% 自动回退到上一级模型。Uber 的教训是分级支出上限比一刀切更有效。
常见误区
⚠️ 常见踩坑
不要一刀切全换小模型省钱——盲目降级导致质量崩塌、用户投诉、更多人工兜底,反而更贵。正确做法是按请求难度路由,用评测集守质量底线,超额降级而非超额阻断。
追问
追问 1:模型路由的分类器本身会不会成为延迟瓶颈?
分类器用 <100M 参数的小模型,推理延迟 <5ms(CPU 即可),相比大模型 1-5s 的响应可忽略。也可用规则引擎(按 prompt 长度/关键词/用户角色)做粗粒度路由,零额外延迟。
追问 2:如何防止部门间"预算套利"(把高成本任务拆成多个低成本请求绕过上限)?
网关层按"语义请求"去重(同一 session 内相似 prompt 合并计费),同时设日/周/月三级预算,短期突增也会触发告警。关键指标是"有效输出/Token 消耗"而非单纯 Token 数。
追问 3:开源模型(如 DeepSeek)vs 闭源 API 的 TCO 如何对比?
TCO = API 费用 + 部署运维成本 + 数据安全合规成本。开源模型自部署 GPU 成本约 $0.5-2/百万 Token(含电费折旧),闭源 API $3-15/百万 Token;但自部署需 MLOps 团队、数据隔离、模型更新。Ramp 数据显示 DeepSeek 在 Vercel 平台份额从 1% 飙到 17%,说明托管式开源(付 API 费但用开源模型)正成为性价比最优解。
没找到想看的面试题?把你想看的告诉我们 →
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具