核心要点

  • token = 模型处理文本的最小单位,一段话会被切成若干 token(词或子词片段)

  • 中文一个字常占 1–2 token,英文一个常见单词约 1 token,标点空格也算

  • 模型按处理的 token 数消耗算力,所以按「输入 token + 输出 token」计费,类比按字数算钱

  • 实战含义:prompt 越长、上下文越多、输出越长越贵;中文比英文更费 token

标准回答

token 是什么

模型不是按"字"或"词"读文本,而是先把文本切成一个个小片段,每个片段叫一个 token。一个 token 可能是一个词、一个子词,或几个字符。比如英文常见单词大致 1 个 token,中文一个汉字常占 1–2 个 token,连标点和空格也会算进去。

为什么按 token 计费

模型每处理一个 token 都要做一遍计算,token 越多消耗的算力越多。所以厂商干脆按处理的 token 数收费——输入(你发的 prompt + 上下文)和输出(模型生成的内容)都计入,输出通常单价更高。类比就是"按字数算稿费",写得越多越贵。

对使用者意味着什么

想省钱省时间,就别让无关内容塞满上下文:精简 prompt、控制输出长度、长文档用检索而非整段灌入。同样一句话,中文往往比英文更费 token,长上下文也更贵。

常见误区

⚠️ 常见踩坑

把 token 当成"一个字"或"一个词"一一对应——其实切分由分词器决定,中文一个字可能 1–2 token;也常忘了输入和输出都收费,不只是模型的回答。

追问

追问 1怎么大致估算一段文本有多少 token?

粗略经验:英文约 4 个字符 ≈ 1 token;中文约 1 个字 ≈ 1.5 token 上下。要精确就用官方提供的分词器/计数工具或接口返回的 usage 字段。做成本预算时按这个估,再留点余量。

追问 2上下文窗口和 token 是什么关系?

上下文窗口指模型一次能处理的 token 上限(输入+输出合起来)。超过就装不下,要截断或摘要历史。窗口越大能塞的内容越多,但 token 越多越慢越贵,所以不是越长越好,按需用。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。