行业2026-05-04 04:00·极客公园 + 36 氪

AI 大模型的「中文税」:为什么中文比英文更费 Token?

极客公园在 36 氪发文探讨 AI 大模型的「中文税」现象——同样的内容,中文消耗的 Token 数通常比英文更多。这揭示了模型训练数据分布和 Tokenizer 设计中的语言偏好问题。

Token 不是中性的

2026 年 5 月 3 日,关于 AI 模型语言公平性的讨论引发关注。

核心问题

  • 现象:同样信息量的内容,中文比英文消耗更多 Token
  • 原因:主流 LLM 的 Tokenizer 基于 BPE 算法,英文词根更丰富,Token 效率更高
  • 影响:中文用户使用成本更高,推理速度可能更慢

深层含义

  • "模型不是中性的,它内置了语言偏好"
  • 中文 Token 效率问题反映了 AI 训练数据的英语中心化
  • 对中国 AI 行业来说,开发更适合中文的 Tokenizer 是一个重要方向

来源: 极客公园 + 36 氪
链接: https://36kr.com/p/3793050208984071