大语言模型2026-05-04 20:00·极客公园 / 36 氪

AI 大模型的「中文税」:为什么中文比英文更费 Token

极客公园深度报道揭示了大语言模型中的「中文税」现象——中文比英文消耗更多 token。根因在于模型不是中性的,它内置了语言偏好,tokenizer 对中文字符的处理效率低于英文,导致中文用户的推理成本更高。

中文税:LLM 的语言偏见

2026 年 5 月 3 日,据 36 氪转载极客公园报道。

核心问题

  • 中文更费 Token:相同内容,中文输入的 token 数量显著高于英文
  • Tokenizer 效率差异:主流 LLM 的 tokenizer 基于英文优化,中文字符需要更多 token 编码
  • 成本影响:中文用户的 API 调用成本高于英文用户

深层原因

「模型不是中性的,它内置了语言偏好。」

  • 训练数据偏差:LLM 训练数据中英文占比远高于中文
  • 分词算法设计:BPE 等分词算法对英文更友好
  • 商业影响:中国企业和开发者在 LLM 使用上面临额外的「语言税」

行业讨论

这是一个被广泛忽视但影响深远的问题。随着中国 AI 行业的发展,tokenizer 的中文优化可能成为国产模型的一个重要竞争优势。

来源: 极客公园 / 36 氪
链接: https://36kr.com/p/3793050208984071