← 首页/AI 资讯

行业2026-05-04 04:00·极客公园 + 36 氪

AI 大模型的「中文税」：为什么中文比英文更费 Token？

极客公园在 36 氪发文探讨 AI 大模型的「中文税」现象——同样的内容，中文消耗的 Token 数通常比英文更多。这揭示了模型训练数据分布和 Tokenizer 设计中的语言偏好问题。

Token 不是中性的

2026 年 5 月 3 日，关于 AI 模型语言公平性的讨论引发关注。

核心问题

现象：同样信息量的内容，中文比英文消耗更多 Token
原因：主流 LLM 的 Tokenizer 基于 BPE 算法，英文词根更丰富，Token 效率更高
影响：中文用户使用成本更高，推理速度可能更慢

深层含义

"模型不是中性的，它内置了语言偏好"
中文 Token 效率问题反映了 AI 训练数据的英语中心化
对中国 AI 行业来说，开发更适合中文的 Tokenizer 是一个重要方向

来源： 极客公园 + 36 氪
链接： https://36kr.com/p/3793050208984071

📰 原始来源

https://36kr.com/p/3793050208984071

← 上一篇

OpenAI 模型、Codex 和托管代理正式登陆 AWS

下一篇 →

OpenAI 推出高级账户安全功能，与 Yubico 合作硬件密钥

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法