💡

文章摘要

黄仁勋说"算力越多 token 越多",token 正在成为 AI 时代的"石油"。本文从 token 生产成本、产业链利润分配、应用定价策略三个维度,深度解析 token 经济学如何重塑 AI 产业格局。

AI 产业链的利润分布

2026 年 6 月,英伟达 CEO 黄仁勋在股东大会上抛出一个论断:"算力越多,token 越多。" 这句话看似简单,却揭示了 AI 产业的底层逻辑——token 正在成为 AI 时代的"石油"

与此同时,美光 Q3 财报显示营收 414.6 亿美元(同比增长 346%),HBM高带宽内存)需求爆发;高通宣布 AI 数据中心业务目标 2027 财年达到 50 亿美元;联合国 AI 环境报告预测 2030 年数据中心用电将达 945 太瓦时。

这些看似独立的新闻背后,都指向同一个核心:token 的生产与分发正在重构 AI 产业链的价值分配

本文将从三个维度深度解析 token 经济学:

  1. token 的生产成本算力、能源、内存如何构成 token 的"生产成本"
  2. 产业链利润分配:从芯片到模型到应用,谁在 token 经济中赚走了最多的钱
  3. 应用定价策略token 经济学如何影响 AI 应用的商业模式

理解 token 经济学,是理解 AI 产业真实竞争力的关键。

图表加载中…

💡 一句话理解

token 经济学是分析 AI 公司竞争力的重要框架,但不同场景下 token 的价值差异巨大(如代码生成 vs 闲聊),需结合具体应用分析。

⚠️ 常见踩坑

token 成本只是 AI 应用总成本的一部分,部署、运维、数据标注等成本同样重要,避免过度简化分析。

一、token 的生产成本:算力、能源、内存的三重约束

token 不是免费的。 每一个 token 的生成都需要消耗算力、能源和内存,这三者构成了 token 的"生产成本"。

1. 算力成本:GPU 的折旧与效率

token 的生产核心是 GPU 算力。以英伟达 H100 为例,单卡售价约 3 万美元,寿命约 3-5 年。假设一张 H100 每天运行 24 小时,5 年折旧约 16,438 小时。

根据英伟达官方数据,H100 在 FP8 精度下推理性能约 3,958 TFLOPS。实际运行大语言模型推理时,利用率约 40-60%,有效算力约 1,600-2,400 TFLOPS。

以 GPT-4 级别的模型(约 1.8 万亿参数)为例,生成一个 token 约需 1.8 万亿次浮点运算。在 H100 上,单个 token 的生成时间约 0.75-1.1 毫秒,对应算力成本约 0.0002-0.0003 美元。

2. 能源成本:token 的"碳足迹"

联合国 AI 环境报告指出,2030 年数据中心用电将达 945 太瓦时,其中推理占能耗的 80%-90%。

以美国平均工业电价 0.07 美元/千瓦时计算,H100 功耗 700W,运行一小时耗电 0.7 千瓦时,成本约 0.049 美元。假设一小时生成 3,600 个 token(约每秒 1 个 token),单个 token 的能源成本约 0.000014 美元。

能源成本看似微不足道,但在大规模部署时(如百万用户同时使用),总能源成本将非常可观。

3. 内存成本:HBM 的瓶颈

大语言模型推理时,模型权重需要加载到 GPU 内存中。GPT-4 级别模型约需 3.6TB 内存(FP16 精度),需要多张 H100(80GB 内存)协同。

美光 Q3 财报显示,HBM 需求爆发推动营收同比增长 346%。HBM 售价约 3,000 美元/GB,3.6TB HBM 成本约 1080 万美元。

内存成本是 token 生产的重要约束,也是当前 AI 芯片供应链的瓶颈所在。

小结: 单个 token 的生产成本约 0.0002-0.0005 美元(含算力折旧、能源、内存),但这是理想情况下的理论值。实际生产中,还需考虑批处理效率、模型加载开销、网络延迟等因素。

💡 一句话理解

token 生产成本正在快速下降。根据历史数据,每瓦特算力生成的 token 数量每年约翻倍(类似摩尔定律),这意味着 AI 应用的边际成本将持续降低。

⚠️ 常见踩坑

不同模型的 token 生产成本差异巨大。小型模型(如 Llama 3 8B)的 token 成本可能只有 GPT-4 的 1/100,但能力也相差甚远。选择模型时需平衡成本与能力。

二、产业链利润分配:谁在 token 经济中赚走了最多的钱

token 的生产链路可以类比为"石油产业链":芯片厂商 = 钻井设备商,云服务商 = 炼油厂,模型厂商 = 品牌加油站,应用开发商 = 零售商。

1. 芯片层:英伟达的垄断利润

英伟达在 AI 芯片市场的份额超过 80%,毛利率高达 75%。以 H100 为例,生产成本约 1.2 万美元,售价 3 万美元,单卡毛利约 1.8 万美元。

2026 财年(截至 2026 年 1 月),英伟达数据中心业务全年营收约 1,750 亿美元(Q3 单季 512 亿、Q4 单季 623 亿),公司整体净利润约 700 亿美元。这意味着英伟达从每个 token 的生产中抽走了约 30-40% 的利润

2. 云服务层:AWS、Azure、GCP 的基础设施租金

云服务商购买 GPU,构建数据中心,出租算力。以 AWS 为例,p5.48xlarge 实例(8 张 H100)按需价格约 98 美元/小时。

云服务商的 GPU 采购成本约 2.4 万美元/小时(8 张 H100 × 3 万美元 ÷ 5 年 ÷ 8760 小时),加上电力、网络、运维等成本,总成本约 3.5 万美元/小时。

这意味着云服务商在 GPU 租赁上是亏损的,他们的利润来自其他服务(存储、数据库、网络等)。

3. 模型层:OpenAI、Anthropic 的品牌溢价

模型厂商通过 API 出售 token。OpenAI GPT-4 的 API 价格约 0.06 美元/千 token(输入)+ 0.12 美元/千 token(输出)。

根据估算,GPT-4 的 token 生产成本约 0.0003 美元/千 tokenOpenAI 的毛利率高达 99%

但模型厂商需要承担研发成本(GPT-4 训练成本估计超过 1 亿美元)、运维成本(全球数据中心)、安全对齐成本(RLHF 等),实际净利润率约 20-30%。

4. 应用层:AI 应用的薄利多销

应用开发商调用模型 API,构建面向用户的产品。以 AI 写作助手为例,假设每月订阅费 20 美元,用户平均每月生成 50 万 token

应用开发商的 API 成本约 0.06 美元/千 token × 500 = 30 美元,已经超过订阅费

这就是为什么大多数 AI 应用都在亏损——token 的成本太高,用户付费意愿太低

小结: token 经济的利润分配呈现"两头大、中间小"的格局:芯片层和应用层利润微薄(甚至亏损),模型层和芯片层(英伟达)赚走了大部分利润。

💡 一句话理解

分析 AI 公司竞争力时,重点关注其在 token 产业链中的位置。英伟达(芯片层)和 OpenAI(模型层)占据最有利的生态位,而应用层公司需要找到差异化的价值主张才能盈利。

⚠️ 常见踩坑

云服务商在 GPU 租赁上亏损是短期现象。随着 AI 需求爆发,云服务商正在提高 GPU 租赁价格,未来可能成为 token 经济的重要利润获取者。

三、token 经济学如何影响 AI 应用的定价策略

token 成本是 AI 应用的"可变成本",直接影响定价策略和商业模式。

1. 按 token 计费 vs 订阅制:两种商业模式的博弈

token 计费的优点是成本透明,用户只为实际使用付费;缺点是用户心理账户不清晰,容易产生"账单恐惧"。

订阅制的优点是收入可预测,用户心理账户清晰;缺点是重度用户补贴轻度用户,可能导致亏损。

以 OpenAI ChatGPT Plus 为例,月费 20 美元,假设用户平均每月生成 200 万 token,API 成本约 0.12 美元/千 token × 2000 = 240 美元。OpenAI 在每个 Plus 用户上亏损约 220 美元

这就是为什么 OpenAI 推出 GPT-4o mini——通过降低 token 成本(0.15 美元/百万 token vs GPT-4 的 60 美元/百万 token)来改善单位经济模型

2. 模型路由:智能选择模型以优化成本

并非所有任务都需要 GPT-4 级别的模型。简单的问答、翻译、摘要等任务,可以用 GPT-3.5 或开源模型(如 Llama 3)完成,成本可降低 10-100 倍。

模型路由Model Routing 技术通过分析任务复杂度,自动选择最合适的模型。例如:

  • 简单问答 → GPT-3.5(0.0015 美元/千 token
  • 复杂推理 → GPT-4(0.06 美元/千 token
  • 代码生成 → Claude 3 Opus(0.15 美元/千 token

通过模型路由,AI 应用的平均 token 成本可降低 50-80%。

3. 缓存与复用:减少重复 token 生成

许多 AI 应用存在大量重复查询(如客服场景)。通过语义缓存(Semantic Caching),可以识别相似查询并复用历史结果,避免重复生成 token

据估计,语义缓存可减少 30-50% 的 token 消耗,显著降低成本。

4. 本地部署 vs API 调用:成本平衡点

对于高频使用场景,本地部署开源模型可能比 API 调用更经济。

以 Llama 3 70B 为例,本地部署需要 2 张 A100(80GB),硬件成本约 3 万美元。假设每天生成 1000 万 token,5 年折旧约 18,250 天,单个 token 的硬件成本约 0.0000016 美元,远低于 API 调用(0.00006 美元/千 token)。

成本平衡点约在每天 50 万 token——超过这个阈值,本地部署更经济。

小结: AI 应用的定价策略需要综合考虑 token 成本、用户行为、竞争格局。模型路由、语义缓存、本地部署是优化 token 成本的三大策略

💡 一句话理解

对于 AI 应用创业者,建议从订阅制起步,配合模型路由和语义缓存控制成本。当用户规模达到一定阈值后,考虑本地部署开源模型以降低边际成本。

⚠️ 常见踩坑

不要为了降低成本而过度使用小模型。用户体验是 AI 应用的核心竞争力,模型能力不足会导致用户流失,得不偿失。

四、token 经济学的未来趋势:从稀缺到丰裕

黄仁勋说"算力越多,token 越多",这暗示了 token 经济学的终极方向:从稀缺走向丰裕。

1. 算力摩尔定律:token 成本持续下降

根据历史数据,每瓦特算力生成的 token 数量每年约翻倍。这意味着:

  • 2026 年:GPT-4 级别 token 成本约 0.0003 美元
  • 2027 年:同等能力 token 成本约 0.00015 美元
  • 2028 年:同等能力 token 成本约 0.000075 美元

5 年内,token 成本将下降 30 倍,这将彻底改变 AI 应用的经济模型。

2. 模型效率提升:更少参数,更强能力

GPT-4 约 1.8 万亿参数,但研究表明,通过蒸馏、量化、剪枝等技术,可以在保持 90% 能力的情况下,将参数压缩到 1/10。

这意味着同等算力下,可以生成更多 token,进一步降低成本。

3. 能源革命:可持续的 token 生产

联合国报告预测 2030 年数据中心用电 945 太瓦时,这相当于日本的全国用电量。能源将成为 token 生产的重要约束。

可再生能源(太阳能、风能)和核能将成为 AI 数据中心的主要能源选择。谁掌握了廉价清洁能源,谁就掌握了 token 生产的成本优势。

4. 从 token 经济到注意力经济

token 变得廉价且充裕时,AI 应用的竞争将从"token 成本"转向"用户注意力"

未来的 AI 应用将更像社交媒体——免费提供基础服务,通过广告、增值服务变现token 成本将被视为"获客成本",而非"可变成本"。

小结: token 经济学的未来是从稀缺走向丰裕。算力摩尔定律、模型效率提升、能源革命将共同推动 token 成本持续下降,最终改变 AI 应用的商业模式。

图表加载中…

💡 一句话理解

长期投资者应关注 token 成本下降带来的结构性机会。AI 应用公司虽然当前亏损,但随着 token 成本下降,单位经济模型将逐步改善,最终实现盈利。

⚠️ 常见踩坑

token 成本下降不等于 AI 应用自动盈利。应用公司仍需找到差异化的价值主张,避免陷入价格战。

五、实战案例:token 经济学在不同场景的应用

token 经济学不仅是理论框架,更是实战工具。以下是三个典型场景的分析。

案例 1:AI 客服的成本优化

某电商平台部署 AI 客服,日均处理 100 万咨询。初始方案使用 GPT-4,月均 token 成本约 18 万美元。

优化策略

  1. 模型路由:简单查询(如物流查询)使用 GPT-3.5,复杂投诉使用 GPT-4
  2. 语义缓存:对高频问题(如退货政策)缓存答案
  3. 本地部署:对敏感数据(如支付信息)使用本地部署的开源模型

优化结果: 月均 token 成本降至 4.5 万美元,降幅 75%,用户满意度提升 12%。

案例 2:AI 编程助手的定价策略

某创业公司开发 AI 编程助手,目标用户是独立开发者。初始定价 29 美元/月,但用户增长缓慢。

token 经济学分析:

  • 用户平均每月生成 200 万 token(代码生成)
  • API 成本:0.12 美元/千 token × 2000 = 240 美元
  • 单位经济模型严重亏损

优化策略

  1. 降低价格:9 美元/月,吸引价格敏感用户
  2. 模型混用:代码补全使用 Codex(成本低),代码重构使用 GPT-4
  3. 限额策略:免费用户每月 50 万 token,付费用户无限

优化结果: 用户增长 300%,月均 token 成本降至 15 美元/用户,通过免费用户转化实现盈利。

案例 3:企业级 AI 平台的成本分摊

某大型企业部署 AI 平台,供内部 1 万名员工使用。初始方案由 IT 部门统一支付 API 费用,月均 token 成本 50 万美元。

问题: 各部门无节制使用 AI,成本失控。

优化策略

  1. 内部定价:按部门分配 token 配额,超额部分由部门预算承担
  2. 成本可视化:每个员工可实时查看自己的 token 消耗和成本
  3. 激励机制:对 token 使用效率高的部门给予奖励

优化结果: 月均 token 成本降至 30 万美元,降幅 40%,员工 AI 使用效率提升 25%。

小结: token 经济学是 AI 应用优化的实战工具。通过模型路由、语义缓存、内部定价等策略,可以显著降低成本,改善单位经济模型。

💡 一句话理解

企业部署 AI 平台时,建议引入内部 token 定价机制,避免"公地悲剧"。同时,建立 token 使用监控系统,及时发现异常消耗。

⚠️ 常见踩坑

不要为了降低成本而过度限制员工使用 AI。AI 是提升生产力的重要工具,过度限制可能导致员工转向未经批准的"影子 AI",带来安全风险。

六、Token 产业链全景图:从芯片到应用的生态分析

要真正理解 token 经济学,我们需要从产业链的全景视角来分析。Token 的生产不是单一环节,而是从芯片、服务器、云服务、模型训练到应用开发的完整产业链。

芯片层:英伟达的垄断地位

英伟达在 AI 芯片市场的份额超过 80%,毛利率高达 75%。以 H100 为例,生产成本约 1.2 万美元,售价 3 万美元,单卡毛利 1.8 万美元。

2026 财年(截至 2026 年 1 月),英伟达数据中心业务全年营收约 1,750 亿美元(Q3 单季 512 亿、Q4 单季 623 亿),公司整体净利润约 700 亿美元。这意味着英伟达从每个 token 的生产中抽走了约 30-40% 的利润

云服务层:AWS、Azure、GCP 的基础设施租金

云服务商购买 GPU,构建数据中心,出租算力。以 AWS 为例,p5.48xlarge 实例(8 张 H100)按需价格约 98 美元/小时。

云服务商的 GPU 采购成本约 2.4 万美元/小时(8 张 H100 × 3 万美元 ÷ 5 年 ÷ 8760 小时),加上电力、网络、运维等成本,总成本约 3.5 万美元/小时。

这意味着云服务商在 GPU 租赁上是亏损的,他们的利润来自其他服务(存储、数据库、网络等)。

模型层:OpenAI、Anthropic 的品牌溢价

模型厂商通过 API 出售 token。OpenAI GPT-4 的 API 价格约 0.06 美元/千 token(输入)+ 0.12 美元/千 token(输出)。

根据估算,GPT-4 的 token 生产成本约 0.0003 美元/千 tokenOpenAI 的毛利率高达 99%

但模型厂商需要承担研发成本(GPT-4 训练成本估计超过 1 亿美元)、运维成本(全球数据中心)、安全对齐成本(RLHF 等),实际净利润率约 20-30%。

应用层:AI 应用的薄利多销

应用开发商调用模型 API,构建面向用户的产品。以 AI 写作助手为例,假设每月订阅费 20 美元,用户平均每月生成 50 万 token

应用开发商的 API 成本约 0.06 美元/千 token × 500 = 30 美元,已经超过订阅费

这就是为什么大多数 AI 应用都在亏损——token 的成本太高,用户付费意愿太低

产业链利润分配总结

Token 经济的利润分配呈现"两头大、中间小"的格局:

  • 芯片层(英伟达):毛利率 75%,占据最有利的生态位
  • 模型层(OpenAI/Anthropic):毛利率 99%,但需要承担巨额研发成本
  • 云服务层(AWS/Azure/GCP):GPU 租赁亏损,通过其他服务盈利
  • 应用层:大多数亏损,需要找到差异化的价值主张

这种格局类似于石油产业:油田(芯片)和品牌加油站(模型)赚走了大部分利润,而零售商(应用)利润微薄。

产业链层级代表公司毛利率竞争优势风险

芯片层

英伟达

75%

技术垄断,生态壁垒

地缘政治风险,客户集中度

云服务层

AWS/Azure/GCP

20-30%

规模效应,客户粘性

GPU 租赁短期亏损,资本开支大

模型层

OpenAI/Anthropic

99%(API)

品牌溢价,技术领先

研发成本高,竞争加剧

应用层

AI 应用开发商

-50% ~ 20%

用户洞察,场景理解

token 成本高,用户付费意愿低

💡 一句话理解

分析 AI 公司竞争力时,重点关注其在 token 产业链中的位置。英伟达(芯片层)和 OpenAI(模型层)占据最有利的生态位,而应用层公司需要找到差异化的价值主张才能盈利。

⚠️ 常见踩坑

云服务商在 GPU 租赁上亏损是短期现象。随着 AI 需求爆发,云服务商正在提高 GPU 租赁价格,未来可能成为 token 经济的重要利润获取者。

七、给不同角色的建议

Token 经济学对不同角色有不同的启示。

给创业者:

  1. 从订阅制起步,配合模型路由和语义缓存控制成本
  2. 关注单位经济模型,确保每个用户的 LTV(生命周期价值)> CAC(获客成本)+ token 成本
  3. 寻找差异化的价值主张,避免陷入 token 价格战
  4. 考虑垂直场景,在特定领域建立数据和用户粘性壁垒

给投资者:

  1. 分析 AI 公司在 token 产业链中的位置,芯片层和模型层占据更有利的生态位
  2. 关注 token 成本下降带来的结构性机会,应用层公司虽然当前亏损,但未来可能盈利
  3. 警惕"token 成本陷阱",有些公司通过补贴获客,单位经济模型不可持续
  4. 评估能源约束,谁掌握了廉价清洁能源,谁就掌握了 token 生产的成本优势

给企业决策者:

  1. 引入内部 token 定价机制,避免成本失控
  2. 建立 token 使用监控系统,及时发现异常消耗
  3. 平衡成本控制与生产力提升,不要过度限制员工使用 AI
  4. 评估本地部署 vs API 调用,根据使用频率选择最优方案

给开发者:

  1. 学习 token 经济学原理,理解 AI 应用的成本结构
  2. 掌握模型路由、语义缓存等优化技术,提升应用的经济性
  3. 关注开源模型的发展,本地部署可能成为未来的主流选择
  4. 理解不同模型的能力边界,避免过度使用高成本模型

小结: Token 经济学是理解 AI 产业的关键框架。不同角色应根据自身定位,采取相应策略

💡 一句话理解

Token 经济学不仅是成本分析工具,更是战略思考框架。理解 token 经济,才能在 AI 时代做出正确的决策。

⚠️ 常见踩坑

Token 经济学是动态变化的。算力摩尔定律、模型效率提升、能源革命等因素都在不断改变 token 的成本结构,需要持续跟踪和学习。

八、结语:Token 经济学——AI 时代的'政治经济学'

Token 经济学是 AI 时代的'政治经济学',它揭示了 AI 产业的价值分配规律和竞争逻辑。

黄仁勋说"算力越多,token 越多",这不仅是技术预言,更是商业洞察。在 token 经济中,算力是生产资料,token 是商品,能源是约束条件,应用是消费场景

理解 token 经济学,才能理解:

  • 为什么英伟达市值能突破 3 万亿美元
  • 为什么 OpenAI 估值能超过 1500 亿美元
  • 为什么大多数 AI 应用都在亏损
  • 为什么 AI 应用的定价策略如此复杂

Token 经济学的终极方向是从稀缺走向丰裕。 随着算力摩尔定律、模型效率提升、能源革命,token 成本将持续下降,最终改变 AI 应用的商业模式。

未来的 AI 应用将更像社交媒体——免费提供基础服务,通过广告、增值服务变现。Token 成本将被视为"获客成本",而非"可变成本"。

在这个转变过程中,谁掌握了算力、能源、模型的效率优势,谁就能在 token 经济中占据有利地位。

Token 经济学不仅是分析工具,更是战略框架。理解它,才能在 AI 时代做出正确的决策。

本文的核心论点回顾:

  1. Token 正在成为 AI 时代的"石油",其生产成本由算力、能源、内存三重约束决定
  2. Token 经济的利润分配呈现"两头大、中间小"的格局,芯片层和模型层占据最有利位置
  3. AI 应用的定价策略需要综合考虑 token 成本、用户行为、竞争格局
  4. Token 经济学的未来是从稀缺走向丰裕,这将彻底改变 AI 应用的商业模式
  5. 不同角色应根据自身定位,采取相应的 token 经济策略

下一步行动建议:

  • 创业者:重新审视你的单位经济模型,确保 LTV > CAC + token 成本
  • 投资者:关注 token 产业链中占据有利生态位的公司
  • 企业决策者:引入内部 token 定价机制,建立监控系统
  • 开发者:学习 token 优化技术,关注开源模型发展

Token 经济学是 AI 时代的必修课。理解它,才能在 AI 时代做出正确的决策。

写在最后: 当我们站在 2026 年 6 月这个时间节点回望,会发现 token 经济学的崛起并非偶然。它是 AI 技术从实验室走向商业化的必然产物,是算力、数据、算法三大要素在市场经济中的具体体现。正如工业革命时期的煤炭和钢铁塑造了现代工业体系,token 正在塑造 AI 时代的产业格局。谁能够深刻理解并有效运用 token 经济学原理,谁就能在这场技术革命中占据先机。

💡 一句话理解

Token 经济学是动态变化的。建议每季度重新评估 token 成本结构和单位经济模型,及时调整策略

⚠️ 常见踩坑

不要过度依赖 token 成本分析。AI 应用的竞争力不仅来自成本,更来自用户体验、品牌价值、网络效应等因素。