「中文税」:大模型的语言偏见
2026 年 5 月 3 日,36 氪/极客公园报道 AI 大模型的"中文税"问题。
现象
- 中文比英文更费 Token
- 同样的信息量,中文需要更多的 Token 来处理
- 中国用户在使用 AI 模型时面临更高的成本
原因分析
- 训练数据偏差:主流大模型的训练数据以英文为主
- 分词效率:英文分词天然比中文分词更高效
- 模型偏好:模型不是中性的,它内置了语言偏好
- 上下文窗口:中文占用更多上下文窗口空间
影响
- 中国 AI 用户的 Token 成本更高
- 中文 AI 应用的性能受限
- 需要专门针对中文优化的模型
解决方案
- 训练更多中文数据为主的模型
- 优化中文分词算法
- 开发针对中文的专用 Tokenizer
来源: 36 氪 + 极客公园
链接: https://36kr.com/p/3793050208984071