← 首页/AI 资讯

大语言模型2026-05-04 20:00·极客公园 / 36 氪

AI 大模型的「中文税」：为什么中文比英文更费 Token

极客公园深度报道揭示了大语言模型中的「中文税」现象——中文比英文消耗更多 token。根因在于模型不是中性的，它内置了语言偏好，tokenizer 对中文字符的处理效率低于英文，导致中文用户的推理成本更高。

中文税：LLM 的语言偏见

2026 年 5 月 3 日，据 36 氪转载极客公园报道。

核心问题

中文更费 Token：相同内容，中文输入的 token 数量显著高于英文
Tokenizer 效率差异：主流 LLM 的 tokenizer 基于英文优化，中文字符需要更多 token 编码
成本影响：中文用户的 API 调用成本高于英文用户

深层原因

「模型不是中性的，它内置了语言偏好。」

训练数据偏差：LLM 训练数据中英文占比远高于中文
分词算法设计：BPE 等分词算法对英文更友好
商业影响：中国企业和开发者在 LLM 使用上面临额外的「语言税」

行业讨论

这是一个被广泛忽视但影响深远的问题。随着中国 AI 行业的发展，tokenizer 的中文优化可能成为国产模型的一个重要竞争优势。

来源： 极客公园 / 36 氪
链接： https://36kr.com/p/3793050208984071

📰 原始来源

https://36kr.com/p/3793050208984071

← 上一篇

法律 AI 初创 Legora 估值达 $56 亿，与 Harvey 的竞争白热化

下一篇 →

OpenAI 发布 Symphony：开源 AI Agent 编排规范，定义多 Agent 协作统一标准

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法