← 首页/AI 资讯

大语言模型2026-05-06 06:00·36 氪 + 极客公园

AI 大模型的「中文税」：中文比英文更费 Token 的深层原因

36 氪/极客公园报道，AI 大模型处理中文比英文消耗更多 Token。研究表明模型不是中性的，它内置了语言偏好。这被称为「中文税」，影响中国 AI 用户的成本和体验。

「中文税」：大模型的语言偏见

2026 年 5 月 3 日，36 氪/极客公园报道 AI 大模型的"中文税"问题。

现象

中文比英文更费 Token
同样的信息量，中文需要更多的 Token 来处理
中国用户在使用 AI 模型时面临更高的成本

原因分析

训练数据偏差：主流大模型的训练数据以英文为主
分词效率：英文分词天然比中文分词更高效
模型偏好：模型不是中性的，它内置了语言偏好
上下文窗口：中文占用更多上下文窗口空间

影响

中国 AI 用户的 Token 成本更高
中文 AI 应用的性能受限
需要专门针对中文优化的模型

解决方案

训练更多中文数据为主的模型
优化中文分词算法
开发针对中文的专用 Tokenizer

来源： 36 氪 + 极客公园
链接： https://36kr.com/p/3793050208984071

📰 原始来源

https://36kr.com/p/3793050208984071

← 上一篇

马斯克一边告 OpenAI 一边蒸馏 ChatGPT：Grok 训练数据争议

下一篇 →

PayPal 宣布「重新成为科技公司」，全面押注 AI 战略转型

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法