大语言模型2026-05-06 06:00·36 氪 + 极客公园

AI 大模型的「中文税」:中文比英文更费 Token 的深层原因

36 氪/极客公园报道,AI 大模型处理中文比英文消耗更多 Token。研究表明模型不是中性的,它内置了语言偏好。这被称为「中文税」,影响中国 AI 用户的成本和体验。

「中文税」:大模型的语言偏见

2026 年 5 月 3 日,36 氪/极客公园报道 AI 大模型的"中文税"问题。

现象

  • 中文比英文更费 Token
  • 同样的信息量,中文需要更多的 Token 来处理
  • 中国用户在使用 AI 模型时面临更高的成本

原因分析

  1. 训练数据偏差:主流大模型的训练数据以英文为主
  2. 分词效率:英文分词天然比中文分词更高效
  3. 模型偏好:模型不是中性的,它内置了语言偏好
  4. 上下文窗口:中文占用更多上下文窗口空间

影响

  • 中国 AI 用户的 Token 成本更高
  • 中文 AI 应用的性能受限
  • 需要专门针对中文优化的模型

解决方案

  • 训练更多中文数据为主的模型
  • 优化中文分词算法
  • 开发针对中文的专用 Tokenizer

来源: 36 氪 + 极客公园
链接: https://36kr.com/p/3793050208984071