Token 是什么？为什么大模型按 token 计费？

Question 1

Accepted Answer

token 是什么 模型不是按"字"或"词"读文本，而是先把文本切成一个个小片段，每个片段叫一个 token。一个 token 可能是一个词、一个子词，或几个字符。比如英文常见单词大致 1 个 token，中文一个汉字常占 1–2 个 token，连标点和空格也会算进去。 为什么按 token 计费 模型每处理一个 token 都要做一遍计算，token 越多消耗的算力越多。所以厂商干脆按处理的 token 数收费——输入（你发的 prompt + 上下文）和输出（模型生成的内容）都计入，输出通常单价更高。类比就是"按字数算稿费"，写得越多越贵。 对使用者意味着什么 想省钱省时间，就别让无关内容塞满上下文：精简 prompt、控制输出长度、长文档用检索而非整段灌入。同样一句话，中文往往比英文更费 token，长上下文也更贵。

Question 2

怎么大致估算一段文本有多少 token？

Accepted Answer

粗略经验：英文约 4 个字符 ≈ 1 token；中文约 1 个字 ≈ 1.5 token 上下。要精确就用官方提供的分词器/计数工具或接口返回的 usage 字段。做成本预算时按这个估，再留点余量。

Question 3

上下文窗口和 token 是什么关系？

Accepted Answer

上下文窗口指模型一次能处理的 token 上限（输入+输出合起来）。超过就装不下，要截断或摘要历史。窗口越大能塞的内容越多，但 token 越多越慢越贵，所以不是越长越好，按需用。

Token 是什么？为什么大模型按 token 计费？

核心要点

标准回答

常见误区

追问

延伸学习