中文税:LLM 的语言偏见
2026 年 5 月 3 日,据 36 氪转载极客公园报道。
核心问题
- 中文更费 Token:相同内容,中文输入的 token 数量显著高于英文
- Tokenizer 效率差异:主流 LLM 的 tokenizer 基于英文优化,中文字符需要更多 token 编码
- 成本影响:中文用户的 API 调用成本高于英文用户
深层原因
「模型不是中性的,它内置了语言偏好。」
- 训练数据偏差:LLM 训练数据中英文占比远高于中文
- 分词算法设计:BPE 等分词算法对英文更友好
- 商业影响:中国企业和开发者在 LLM 使用上面临额外的「语言税」
行业讨论
这是一个被广泛忽视但影响深远的问题。随着中国 AI 行业的发展,tokenizer 的中文优化可能成为国产模型的一个重要竞争优势。
来源: 极客公园 / 36 氪
链接: https://36kr.com/p/3793050208984071