Token 不是中性的
2026 年 5 月 3 日,关于 AI 模型语言公平性的讨论引发关注。
核心问题
- 现象:同样信息量的内容,中文比英文消耗更多 Token
- 原因:主流 LLM 的 Tokenizer 基于 BPE 算法,英文词根更丰富,Token 效率更高
- 影响:中文用户使用成本更高,推理速度可能更慢
深层含义
- "模型不是中性的,它内置了语言偏好"
- 中文 Token 效率问题反映了 AI 训练数据的英语中心化
- 对中国 AI 行业来说,开发更适合中文的 Tokenizer 是一个重要方向
来源: 极客公园 + 36 氪
链接: https://36kr.com/p/3793050208984071