如何估算一个 AI 功能的成本？Token 账怎么算？

Question 1

Accepted Answer

第一步：算单次成本 单次成本 = 输入 token 数 × 输入单价 + 输出 token 数 × 输出单价。注意输出单价通常比输入贵几倍，输出长的功能要重点关注。 第二步：估 token 数 输入不止用户那句话，还包括 system prompt、few-shot 示例、RAG 检索拼进来的片段、多轮对话历史——这些往往是大头。中文粗估 1 字≈1~2 token，英文 1 词≈1.3 token，要精确就用官方 tokenizer 跑一遍真实样本。 第三步：乘上量级 总成本 = 单次成本 × 调用量。调用量 = DAU × 人均使用次数 × 每次轮数（多轮要累加滚雪球的历史上下文）。按峰值 QPS 估容量和限流，别只算日均。 第四步：降本 - 简单任务换小模型，难任务才上大模型（路由分流）。 - 对重复/相似请求做缓存，命中就不花钱。 - 精简 prompt、裁剪检索片段数量和长度。 - 用 max_tokens 限制输出，避免模型啰嗦烧钱。 举例：输入约 1000 token、输出约 500 token，日调用 10 万次，就先算单次再 ×10 万估月成本，对比不同模型选性价比最优的。

Question 2

多轮对话的成本为什么会越聊越贵？

Accepted Answer

每轮请求都要把之前的对话历史一起作为输入发给模型，上下文像滚雪球一样越来越长，输入 token 逐轮累加。控制方法：限制保留轮数、对早期历史做摘要压缩、或只带与当前问题相关的片段，而不是无脑全量塞历史。

Question 3

上线前怎么压测验证成本？

Accepted Answer

用一批真实/仿真请求样本跑一遍，记录每次实际的输入输出 token（API 返回的 usage 字段最准），算出真实人均成本，再乘预估量级。比拍脑袋估 token 准得多，还能顺便发现 prompt 是不是太长、输出是不是超预期。

如何估算一个 AI 功能的成本？Token 账怎么算？

核心要点

标准回答

常见误区

追问

延伸学习