文章摘要
黄仁勋说"算力越多 token 越多",token 正在成为 AI 时代的"石油"。本文从 token 生产成本、产业链利润分配、应用定价策略三个维度,深度解析 token 经济学如何重塑 AI 产业格局。
AI 产业链的利润分布
2026 年 6 月,英伟达 CEO 黄仁勋在股东大会上抛出一个论断:"算力越多,token 越多。" 这句话看似简单,却揭示了 AI 产业的底层逻辑——token 正在成为 AI 时代的"石油"。
与此同时,美光 Q3 财报显示营收 414.6 亿美元(同比增长 346%),HBM(高带宽内存)需求爆发;高通宣布 AI 数据中心业务目标 2027 财年达到 50 亿美元;联合国 AI 环境报告预测 2030 年数据中心用电将达 945 太瓦时。
这些看似独立的新闻背后,都指向同一个核心:token 的生产与分发正在重构 AI 产业链的价值分配。
本文将从三个维度深度解析 token 经济学:
- token 的生产成本:算力、能源、内存如何构成 token 的"生产成本"
- 产业链利润分配:从芯片到模型到应用,谁在 token 经济中赚走了最多的钱
- 应用定价策略:token 经济学如何影响 AI 应用的商业模式
理解 token 经济学,是理解 AI 产业真实竞争力的关键。
⚠️ 常见踩坑
token 成本只是 AI 应用总成本的一部分,部署、运维、数据标注等成本同样重要,避免过度简化分析。
一、token 的生产成本:算力、能源、内存的三重约束
token 不是免费的。 每一个 token 的生成都需要消耗算力、能源和内存,这三者构成了 token 的"生产成本"。
1. 算力成本:GPU 的折旧与效率
token 的生产核心是 GPU 算力。以英伟达 H100 为例,单卡售价约 3 万美元,寿命约 3-5 年。假设一张 H100 每天运行 24 小时,5 年折旧约 16,438 小时。
根据英伟达官方数据,H100 在 FP8 精度下推理性能约 3,958 TFLOPS。实际运行大语言模型推理时,利用率约 40-60%,有效算力约 1,600-2,400 TFLOPS。
以 GPT-4 级别的模型(约 1.8 万亿参数)为例,生成一个 token 约需 1.8 万亿次浮点运算。在 H100 上,单个 token 的生成时间约 0.75-1.1 毫秒,对应算力成本约 0.0002-0.0003 美元。
2. 能源成本:token 的"碳足迹"
联合国 AI 环境报告指出,2030 年数据中心用电将达 945 太瓦时,其中推理占能耗的 80%-90%。
以美国平均工业电价 0.07 美元/千瓦时计算,H100 功耗 700W,运行一小时耗电 0.7 千瓦时,成本约 0.049 美元。假设一小时生成 3,600 个 token(约每秒 1 个 token),单个 token 的能源成本约 0.000014 美元。
能源成本看似微不足道,但在大规模部署时(如百万用户同时使用),总能源成本将非常可观。
3. 内存成本:HBM 的瓶颈
大语言模型推理时,模型权重需要加载到 GPU 内存中。GPT-4 级别模型约需 3.6TB 内存(FP16 精度),需要多张 H100(80GB 内存)协同。
美光 Q3 财报显示,HBM 需求爆发推动营收同比增长 346%。HBM 售价约 3,000 美元/GB,3.6TB HBM 成本约 1080 万美元。
内存成本是 token 生产的重要约束,也是当前 AI 芯片供应链的瓶颈所在。
小结: 单个 token 的生产成本约 0.0002-0.0005 美元(含算力折旧、能源、内存),但这是理想情况下的理论值。实际生产中,还需考虑批处理效率、模型加载开销、网络延迟等因素。
二、产业链利润分配:谁在 token 经济中赚走了最多的钱
token 的生产链路可以类比为"石油产业链":芯片厂商 = 钻井设备商,云服务商 = 炼油厂,模型厂商 = 品牌加油站,应用开发商 = 零售商。
1. 芯片层:英伟达的垄断利润
英伟达在 AI 芯片市场的份额超过 80%,毛利率高达 75%。以 H100 为例,生产成本约 1.2 万美元,售价 3 万美元,单卡毛利约 1.8 万美元。
2026 财年(截至 2026 年 1 月),英伟达数据中心业务全年营收约 1,750 亿美元(Q3 单季 512 亿、Q4 单季 623 亿),公司整体净利润约 700 亿美元。这意味着英伟达从每个 token 的生产中抽走了约 30-40% 的利润。
2. 云服务层:AWS、Azure、GCP 的基础设施租金
云服务商购买 GPU,构建数据中心,出租算力。以 AWS 为例,p5.48xlarge 实例(8 张 H100)按需价格约 98 美元/小时。
云服务商的 GPU 采购成本约 2.4 万美元/小时(8 张 H100 × 3 万美元 ÷ 5 年 ÷ 8760 小时),加上电力、网络、运维等成本,总成本约 3.5 万美元/小时。
这意味着云服务商在 GPU 租赁上是亏损的,他们的利润来自其他服务(存储、数据库、网络等)。
3. 模型层:OpenAI、Anthropic 的品牌溢价
模型厂商通过 API 出售 token。OpenAI GPT-4 的 API 价格约 0.06 美元/千 token(输入)+ 0.12 美元/千 token(输出)。
根据估算,GPT-4 的 token 生产成本约 0.0003 美元/千 token,OpenAI 的毛利率高达 99%。
但模型厂商需要承担研发成本(GPT-4 训练成本估计超过 1 亿美元)、运维成本(全球数据中心)、安全对齐成本(RLHF 等),实际净利润率约 20-30%。
4. 应用层:AI 应用的薄利多销
应用开发商调用模型 API,构建面向用户的产品。以 AI 写作助手为例,假设每月订阅费 20 美元,用户平均每月生成 50 万 token。
应用开发商的 API 成本约 0.06 美元/千 token × 500 = 30 美元,已经超过订阅费。
这就是为什么大多数 AI 应用都在亏损——token 的成本太高,用户付费意愿太低。
小结: token 经济的利润分配呈现"两头大、中间小"的格局:芯片层和应用层利润微薄(甚至亏损),模型层和芯片层(英伟达)赚走了大部分利润。
💡 一句话理解
分析 AI 公司竞争力时,重点关注其在 token 产业链中的位置。英伟达(芯片层)和 OpenAI(模型层)占据最有利的生态位,而应用层公司需要找到差异化的价值主张才能盈利。
⚠️ 常见踩坑
云服务商在 GPU 租赁上亏损是短期现象。随着 AI 需求爆发,云服务商正在提高 GPU 租赁价格,未来可能成为 token 经济的重要利润获取者。
三、token 经济学如何影响 AI 应用的定价策略
token 成本是 AI 应用的"可变成本",直接影响定价策略和商业模式。
1. 按 token 计费 vs 订阅制:两种商业模式的博弈
按 token 计费的优点是成本透明,用户只为实际使用付费;缺点是用户心理账户不清晰,容易产生"账单恐惧"。
订阅制的优点是收入可预测,用户心理账户清晰;缺点是重度用户补贴轻度用户,可能导致亏损。
以 OpenAI ChatGPT Plus 为例,月费 20 美元,假设用户平均每月生成 200 万 token,API 成本约 0.12 美元/千 token × 2000 = 240 美元。OpenAI 在每个 Plus 用户上亏损约 220 美元。
这就是为什么 OpenAI 推出 GPT-4o mini——通过降低 token 成本(0.15 美元/百万 token vs GPT-4 的 60 美元/百万 token)来改善单位经济模型。
2. 模型路由:智能选择模型以优化成本
并非所有任务都需要 GPT-4 级别的模型。简单的问答、翻译、摘要等任务,可以用 GPT-3.5 或开源模型(如 Llama 3)完成,成本可降低 10-100 倍。
模型路由(Model Routing) 技术通过分析任务复杂度,自动选择最合适的模型。例如:
- 简单问答 → GPT-3.5(0.0015 美元/千 token)
- 复杂推理 → GPT-4(0.06 美元/千 token)
- 代码生成 → Claude 3 Opus(0.15 美元/千 token)
通过模型路由,AI 应用的平均 token 成本可降低 50-80%。
3. 缓存与复用:减少重复 token 生成
许多 AI 应用存在大量重复查询(如客服场景)。通过语义缓存(Semantic Caching),可以识别相似查询并复用历史结果,避免重复生成 token。
据估计,语义缓存可减少 30-50% 的 token 消耗,显著降低成本。
4. 本地部署 vs API 调用:成本平衡点
对于高频使用场景,本地部署开源模型可能比 API 调用更经济。
以 Llama 3 70B 为例,本地部署需要 2 张 A100(80GB),硬件成本约 3 万美元。假设每天生成 1000 万 token,5 年折旧约 18,250 天,单个 token 的硬件成本约 0.0000016 美元,远低于 API 调用(0.00006 美元/千 token)。
成本平衡点约在每天 50 万 token——超过这个阈值,本地部署更经济。
小结: AI 应用的定价策略需要综合考虑 token 成本、用户行为、竞争格局。模型路由、语义缓存、本地部署是优化 token 成本的三大策略。
💡 一句话理解
对于 AI 应用创业者,建议从订阅制起步,配合模型路由和语义缓存控制成本。当用户规模达到一定阈值后,考虑本地部署开源模型以降低边际成本。
⚠️ 常见踩坑
不要为了降低成本而过度使用小模型。用户体验是 AI 应用的核心竞争力,模型能力不足会导致用户流失,得不偿失。
四、token 经济学的未来趋势:从稀缺到丰裕
黄仁勋说"算力越多,token 越多",这暗示了 token 经济学的终极方向:从稀缺走向丰裕。
根据历史数据,每瓦特算力生成的 token 数量每年约翻倍。这意味着:
- 2026 年:GPT-4 级别 token 成本约 0.0003 美元
- 2027 年:同等能力 token 成本约 0.00015 美元
- 2028 年:同等能力 token 成本约 0.000075 美元
5 年内,token 成本将下降 30 倍,这将彻底改变 AI 应用的经济模型。
2. 模型效率提升:更少参数,更强能力
GPT-4 约 1.8 万亿参数,但研究表明,通过蒸馏、量化、剪枝等技术,可以在保持 90% 能力的情况下,将参数压缩到 1/10。
这意味着同等算力下,可以生成更多 token,进一步降低成本。
3. 能源革命:可持续的 token 生产
联合国报告预测 2030 年数据中心用电 945 太瓦时,这相当于日本的全国用电量。能源将成为 token 生产的重要约束。
可再生能源(太阳能、风能)和核能将成为 AI 数据中心的主要能源选择。谁掌握了廉价清洁能源,谁就掌握了 token 生产的成本优势。
当 token 变得廉价且充裕时,AI 应用的竞争将从"token 成本"转向"用户注意力"。
未来的 AI 应用将更像社交媒体——免费提供基础服务,通过广告、增值服务变现。token 成本将被视为"获客成本",而非"可变成本"。
小结: token 经济学的未来是从稀缺走向丰裕。算力摩尔定律、模型效率提升、能源革命将共同推动 token 成本持续下降,最终改变 AI 应用的商业模式。
⚠️ 常见踩坑
token 成本下降不等于 AI 应用自动盈利。应用公司仍需找到差异化的价值主张,避免陷入价格战。
五、实战案例:token 经济学在不同场景的应用
token 经济学不仅是理论框架,更是实战工具。以下是三个典型场景的分析。
案例 1:AI 客服的成本优化
某电商平台部署 AI 客服,日均处理 100 万咨询。初始方案使用 GPT-4,月均 token 成本约 18 万美元。
优化策略:
- 模型路由:简单查询(如物流查询)使用 GPT-3.5,复杂投诉使用 GPT-4
- 语义缓存:对高频问题(如退货政策)缓存答案
- 本地部署:对敏感数据(如支付信息)使用本地部署的开源模型
优化结果: 月均 token 成本降至 4.5 万美元,降幅 75%,用户满意度提升 12%。
案例 2:AI 编程助手的定价策略
某创业公司开发 AI 编程助手,目标用户是独立开发者。初始定价 29 美元/月,但用户增长缓慢。
token 经济学分析:
优化策略:
优化结果: 用户增长 300%,月均 token 成本降至 15 美元/用户,通过免费用户转化实现盈利。
案例 3:企业级 AI 平台的成本分摊
某大型企业部署 AI 平台,供内部 1 万名员工使用。初始方案由 IT 部门统一支付 API 费用,月均 token 成本 50 万美元。
问题: 各部门无节制使用 AI,成本失控。
优化策略:
优化结果: 月均 token 成本降至 30 万美元,降幅 40%,员工 AI 使用效率提升 25%。
小结: token 经济学是 AI 应用优化的实战工具。通过模型路由、语义缓存、内部定价等策略,可以显著降低成本,改善单位经济模型。
⚠️ 常见踩坑
不要为了降低成本而过度限制员工使用 AI。AI 是提升生产力的重要工具,过度限制可能导致员工转向未经批准的"影子 AI",带来安全风险。
六、Token 产业链全景图:从芯片到应用的生态分析
要真正理解 token 经济学,我们需要从产业链的全景视角来分析。Token 的生产不是单一环节,而是从芯片、服务器、云服务、模型训练到应用开发的完整产业链。
芯片层:英伟达的垄断地位
英伟达在 AI 芯片市场的份额超过 80%,毛利率高达 75%。以 H100 为例,生产成本约 1.2 万美元,售价 3 万美元,单卡毛利 1.8 万美元。
2026 财年(截至 2026 年 1 月),英伟达数据中心业务全年营收约 1,750 亿美元(Q3 单季 512 亿、Q4 单季 623 亿),公司整体净利润约 700 亿美元。这意味着英伟达从每个 token 的生产中抽走了约 30-40% 的利润。
云服务层:AWS、Azure、GCP 的基础设施租金
云服务商购买 GPU,构建数据中心,出租算力。以 AWS 为例,p5.48xlarge 实例(8 张 H100)按需价格约 98 美元/小时。
云服务商的 GPU 采购成本约 2.4 万美元/小时(8 张 H100 × 3 万美元 ÷ 5 年 ÷ 8760 小时),加上电力、网络、运维等成本,总成本约 3.5 万美元/小时。
这意味着云服务商在 GPU 租赁上是亏损的,他们的利润来自其他服务(存储、数据库、网络等)。
模型层:OpenAI、Anthropic 的品牌溢价
模型厂商通过 API 出售 token。OpenAI GPT-4 的 API 价格约 0.06 美元/千 token(输入)+ 0.12 美元/千 token(输出)。
根据估算,GPT-4 的 token 生产成本约 0.0003 美元/千 token,OpenAI 的毛利率高达 99%。
但模型厂商需要承担研发成本(GPT-4 训练成本估计超过 1 亿美元)、运维成本(全球数据中心)、安全对齐成本(RLHF 等),实际净利润率约 20-30%。
应用层:AI 应用的薄利多销
应用开发商调用模型 API,构建面向用户的产品。以 AI 写作助手为例,假设每月订阅费 20 美元,用户平均每月生成 50 万 token。
应用开发商的 API 成本约 0.06 美元/千 token × 500 = 30 美元,已经超过订阅费。
这就是为什么大多数 AI 应用都在亏损——token 的成本太高,用户付费意愿太低。
产业链利润分配总结
Token 经济的利润分配呈现"两头大、中间小"的格局:
- 芯片层(英伟达):毛利率 75%,占据最有利的生态位
- 模型层(OpenAI/Anthropic):毛利率 99%,但需要承担巨额研发成本
- 云服务层(AWS/Azure/GCP):GPU 租赁亏损,通过其他服务盈利
- 应用层:大多数亏损,需要找到差异化的价值主张
这种格局类似于石油产业:油田(芯片)和品牌加油站(模型)赚走了大部分利润,而零售商(应用)利润微薄。
| 产业链层级 | 代表公司 | 毛利率 | 竞争优势 | 风险 |
|---|---|---|---|---|
芯片层 | 英伟达 | 75% | 技术垄断,生态壁垒 | 地缘政治风险,客户集中度 |
云服务层 | AWS/Azure/GCP | 20-30% | 规模效应,客户粘性 | GPU 租赁短期亏损,资本开支大 |
模型层 | OpenAI/Anthropic | 99%(API) | 品牌溢价,技术领先 | 研发成本高,竞争加剧 |
应用层 | AI 应用开发商 | -50% ~ 20% | 用户洞察,场景理解 | token 成本高,用户付费意愿低 |
💡 一句话理解
分析 AI 公司竞争力时,重点关注其在 token 产业链中的位置。英伟达(芯片层)和 OpenAI(模型层)占据最有利的生态位,而应用层公司需要找到差异化的价值主张才能盈利。
⚠️ 常见踩坑
云服务商在 GPU 租赁上亏损是短期现象。随着 AI 需求爆发,云服务商正在提高 GPU 租赁价格,未来可能成为 token 经济的重要利润获取者。
七、给不同角色的建议
Token 经济学对不同角色有不同的启示。
给创业者:
- 从订阅制起步,配合模型路由和语义缓存控制成本
- 关注单位经济模型,确保每个用户的 LTV(生命周期价值)> CAC(获客成本)+ token 成本
- 寻找差异化的价值主张,避免陷入 token 价格战
- 考虑垂直场景,在特定领域建立数据和用户粘性壁垒
给投资者:
- 分析 AI 公司在 token 产业链中的位置,芯片层和模型层占据更有利的生态位
- 关注 token 成本下降带来的结构性机会,应用层公司虽然当前亏损,但未来可能盈利
- 警惕"token 成本陷阱",有些公司通过补贴获客,单位经济模型不可持续
- 评估能源约束,谁掌握了廉价清洁能源,谁就掌握了 token 生产的成本优势
给企业决策者:
- 引入内部 token 定价机制,避免成本失控
- 建立 token 使用监控系统,及时发现异常消耗
- 平衡成本控制与生产力提升,不要过度限制员工使用 AI
- 评估本地部署 vs API 调用,根据使用频率选择最优方案
给开发者:
八、结语:Token 经济学——AI 时代的'政治经济学'
Token 经济学是 AI 时代的'政治经济学',它揭示了 AI 产业的价值分配规律和竞争逻辑。
黄仁勋说"算力越多,token 越多",这不仅是技术预言,更是商业洞察。在 token 经济中,算力是生产资料,token 是商品,能源是约束条件,应用是消费场景。
理解 token 经济学,才能理解:
- 为什么英伟达市值能突破 3 万亿美元
- 为什么 OpenAI 估值能超过 1500 亿美元
- 为什么大多数 AI 应用都在亏损
- 为什么 AI 应用的定价策略如此复杂
Token 经济学的终极方向是从稀缺走向丰裕。 随着算力摩尔定律、模型效率提升、能源革命,token 成本将持续下降,最终改变 AI 应用的商业模式。
未来的 AI 应用将更像社交媒体——免费提供基础服务,通过广告、增值服务变现。Token 成本将被视为"获客成本",而非"可变成本"。
在这个转变过程中,谁掌握了算力、能源、模型的效率优势,谁就能在 token 经济中占据有利地位。
Token 经济学不仅是分析工具,更是战略框架。理解它,才能在 AI 时代做出正确的决策。
本文的核心论点回顾:
- Token 正在成为 AI 时代的"石油",其生产成本由算力、能源、内存三重约束决定
- Token 经济的利润分配呈现"两头大、中间小"的格局,芯片层和模型层占据最有利位置
- AI 应用的定价策略需要综合考虑 token 成本、用户行为、竞争格局
- Token 经济学的未来是从稀缺走向丰裕,这将彻底改变 AI 应用的商业模式
- 不同角色应根据自身定位,采取相应的 token 经济策略
下一步行动建议:
- 创业者:重新审视你的单位经济模型,确保 LTV > CAC + token 成本
- 投资者:关注 token 产业链中占据有利生态位的公司
- 企业决策者:引入内部 token 定价机制,建立监控系统
- 开发者:学习 token 优化技术,关注开源模型发展
Token 经济学是 AI 时代的必修课。理解它,才能在 AI 时代做出正确的决策。
写在最后: 当我们站在 2026 年 6 月这个时间节点回望,会发现 token 经济学的崛起并非偶然。它是 AI 技术从实验室走向商业化的必然产物,是算力、数据、算法三大要素在市场经济中的具体体现。正如工业革命时期的煤炭和钢铁塑造了现代工业体系,token 正在塑造 AI 时代的产业格局。谁能够深刻理解并有效运用 token 经济学原理,谁就能在这场技术革命中占据先机。
⚠️ 常见踩坑
不要过度依赖 token 成本分析。AI 应用的竞争力不仅来自成本,更来自用户体验、品牌价值、网络效应等因素。