💡

文章摘要

2026 年,定制 AI 芯片(ASIC)正以 44.6% 的年增长率蚕食 NVIDIA 的 GPU 市场。Google TPU、Amazon Trainium、Meta MTIA 和 OpenAI Titan 全面出击。本文深度分析 ASIC vs GPU 的技术、经济和地缘竞争格局

1引言:GPU 帝国的裂痕

2026 年的 AI 芯片市场正在经历十年来最深刻的结构性变革。NVIDIA 仍然占据约 70% 的 AI 芯片市场份额,但这个数字在 2024 年曾超过 90%。下降的不是 NVIDIA 的绝对销量——事实上 NVIDIA 的 Blackwell 系列销售仍然"off the charts"——而是定制 ASIC 芯片的增长速度远远超过了 GPU

关键数据令人震撼:Broadcom 2026 财年 Q1 AI 半导体收入达到 84 亿美元,同比增长 106%,Q2 指引为 107 亿美元,同比增长 140%。CEO 陈福阳(Hock Tan)给出了2027 财年 1000 亿美元的 AI 收入目标,背后是 730 亿美元的已签约客户积压订单,以及与 Google 的 TPU 长期供应协议直到 2031 年。

与此同时,ASIC 芯片出货量预计 2026 年将占 AI 服务器市场的 27.8%,创下 2023 年以来的最高份额。分析师预测,到 2028 年,ASIC 出货量将首次超过 GPU 出货量——这是 AI 计算史上的一个里程碑时刻。

驱动这场变革的三股力量
1.成本压力——推理工作负载占 AI 计算的三分之二,通用 GPU 在推理场景的能效远低于定制芯片
2.供应链独立—— hyperscaler 不愿将命脉系于单一供应商(NVIDIA)
3.垂直整合——硬件和软件的深度整合带来性能优势和竞争壁垒

[!tip]
理解这场变革的关键是区分训练(Training)和推理(Inference)。NVIDIA 在训练领域仍然无可替代,但推理占据了 AI 计算量的 67%,而推理恰恰是 ASIC 的主战场。

[!warning]
NVIDIA 并未坐以待毙。Vera Rubin 平台(50 PFLOPS FP4、288GB HBM4)是 NVIDIA 对 ASIC 浪潮的回应。断言 NVIDIA 将被淘汰为时过早——这是一场持续数年的竞争。

图表加载中…

💡 一句话理解

理解这场变革的关键是区分训练和推理。NVIDIA 在训练领域无可替代,但推理占 AI 计算量 67%,是 ASIC 的主战场。

⚠️ 常见踩坑

NVIDIA 并未坐以待毙。Vera Rubin 平台是其回应,断言 NVIDIA 将被淘汰为时过早。

2ASIC vs GPU:技术架构的根本差异

要理解为什么 hyperscaler 要投入数百亿美元开发定制芯片,首先要理解ASIC(Application-Specific Integrated Circuit,应用特定集成电路)和 GPU(Graphics Processing Unit,图形处理器)的本质区别

GPU 是通用并行处理器。NVIDIA GPU 的设计哲学是"什么都能做"——图形渲染、科学计算、AI 训练、AI 推理。这种通用性意味着 GPU 芯片上包含了大量并非所有工作负载都用得上的电路。对于 AI 训练来说,这种通用性是优势——训练需要高度的灵活性来适应不断变化的模型架构。但对于 AI 推理来说,这种通用性变成了效率负担

ASIC 是专用处理器。Google 的 TPU、Amazon 的 Trainium、Meta 的 MTIA 都是为特定的 AI 工作负载量身定制的。它们去掉了 GPU 上不必要的电路,将有限的晶体管预算集中投入到最核心的矩阵乘法单元上。结果是:在目标工作负载上,ASIC 的能效比通常是 GPU 的 2 到 4 倍

关键指标对比

维度 NVIDIA GPU(通用) 定制 ASIC(专用)
设计灵活性 高,可适应各种工作负载 低,针对特定工作负载优化
训练能力 极强,行业标杆 有限,Google TPU v7 例外
推理效率 中等,通用性拖累能效 极高,针对推理优化
单位算力成本 高,NVIDIA 溢价 低,量产后可降低 40-60%
软件生态 成熟(CUDA 生态) 需自建,初期投入大
供应链管理 依赖 TSMC,但 N vidia 有议价权 完全自主控制
开发周期 12-18 个月 18-24 个月(首次开发)

Broadcom 是这场变革的关键推手。这家芯片设计公司拥有约60% 的 AI 服务器计算 ASIC 设计市场份额,为 Google(TPU)、Meta(MTIA)、Microsoft(Maia)和 OpenAI(Titan)提供 IP 和网络设计能力。Marvell Technology 是主要挑战者,已确认在 Amazon 和 Microsoft 有设计中标。TSMC(台积电)是所有先进 ASIC 项目的独家制造商,其 3nm 工艺产线目前 100% 满负荷运转,需求约为产能的三倍。

[!tip]
Broadcom 可能是这场变革中最大的赢家——无论哪家 hyperscaler 的 ASIC 胜出,Broadcom 都收取设计费用。这种"卖铲子给淘金者"的商业模式风险最低、回报最确定。

[!warning]
ASIC 的软件开发成本常被低估。从 CUDA 生态迁移到自定义芯片需要重写大量推理代码,初期迁移成本可能高达数百万美元。只有大规模部署的 hyperscaler 才能摊薄这笔投入。

图表加载中…
芯片公司用途设计伙伴2026 年状态

TPU v7 + v8 Trillium

Google

训练 + 推理

Broadcom + MediaTek

量产中

MTIA 400

Meta

内部推理

TSMC 自研

进入部署

Trainium 3

Amazon

训练 + 推理

Marvell + 自研

2026 Q2 量产

Maia 100

Microsoft

Azure 推理

Broadcom

量产中

Titan 开发中

OpenAI

前沿训练

Broadcom

开发阶段

💡 一句话理解

Broadcom 可能是这场变革中最大的赢家——无论哪家 hyperscaler 的 ASIC 胜出,它都收取设计费用。

⚠️ 常见踩坑

ASIC 的软件开发成本常被低估,从 CUDA 生态迁移到自定义芯片初期成本可能高达数百万美元。

3Google TPU:ASIC 革命的先行者

Google 是最早投入定制 AI 芯片的 hyperscaler,其 TPU(Tensor Processing Unit)项目始于 2015 年,比 NVIDIA GPU 成为 AI 训练主流还早。到 2026 年,Google 已经迭代到TPU v7(Ironwood)和 TPU v8(Trillium),并且首次将训练和推理功能分离为两个芯片。

TPU v7 Ironwood专注于推理,功耗约 500W,能效比上一代提升约 2.5 倍。它采用了定制矩阵乘法单元(MXU),在 Transformer 推理任务上的效率远超通用 GPU。Google 不对外出售 TPU,而是通过Google Cloud 以 TPU 实例的形式提供服务,这种模式使得外部开发者也能使用 TPU 算力,但数据和模型运行在 Google 的基础设施上。

TPU v8 Trillium是训练芯片,与 v7 形成互补。Google 将训练和推理分离的策略反映了其对 AI 工作负载的深刻理解——训练需要灵活性和峰值算力,推理需要能效和成本优化——两种需求用不同的芯片来满足是最优解。

与 Broadcom 和 MediaTek 的合作模式:Google 的 TPU 设计由 Broadcom 提供核心 IP(高速互连、内存控制器)和 MediaTek 提供部分模块。这种"自研架构 + 外部 IP"的模式被其他 hyperscaler 广泛效仿,已成为定制芯片开发的事实标准。

经济影响:据估计,Google 通过使用 TPU 而非购买 NVIDIA GPU,每年节省数十亿美元的 AI 推理成本。这不仅仅是硬件成本的节省——TPU 的功耗更低意味着数据中心的冷却和电力成本也大幅下降。

图表加载中…

[!tip]
Google 的 TPU 长期供应协议已延长至 2031 年——这是定制芯片商业可行性的最强信号。如果 TPU 不能持续证明其经济优势,Google 不会签下长达 5 年的协议。

[!warning]
TPU 的软件生态绑定是一个双刃剑。使用 TPU 意味着深度依赖 Google Cloud 和 TensorFlow/JAX 生态,迁移成本极高。企业在选择 TPU 实例前应评估长期锁定风险。

💡 一句话理解

Google TPU 长期供应协议已延长至 2031 年,这是定制芯片商业可行性的最强信号。

⚠️ 常见踩坑

TPU 的软件生态绑定是双刃剑,迁移成本极高。选择 TPU 前应评估长期锁定风险。

4Amazon Trainium:AWS 的算力自主之路

Amazon 的 Trainium 系列是 AWS 在 AI 算力上摆脱 NVIDIA 依赖的核心战略。2026 年 3 月发布的Trainium 3提供 2.517 PFLOPS FP8 算力,配备 144GB HBM3E 显存,带宽 4.9 TB/s——性能约是前代 Trainium 2 的两倍,显存容量提升 1.5 倍。

Trainium 3 的战略定位:在 FP8 精度下直接与 NVIDIA Blackwell Ultra 竞争,但价格更低。AWS 通过自研芯片获得了定价自主权——不再被动接受 NVIDIA 的定价策略,而是可以用 Trainium 实例作为"更便宜的替代方案"来吸引价格敏感的客户。

NVLink Fusion 的开放策略:Trainium 3 支持Nvidia NVLink Fusion,这意味着 Trainium 和 NVIDIA GPU 可以在同一个集群中混合使用。这是一个聪明的策略——客户不需要在"全 NVIDIA"和"全 Amazon"之间二选一,而是可以根据工作负载特性混合使用两种芯片。

Trainium 4 已在路上:2025 年 12 月发布的 Trainium 4 计划于 2026 年底或 2027 年初上市,承诺在 FP8 性能上达到前代的 3 倍,FP4 吞吐量达到 6 倍,显存带宽达到 4 倍,配备约 288GB 显存

AWS 的完整算力版图:Trainium 只是 AWS 自研芯片战略的一部分。同属 AWS 自研的Graviton 5(192 核 ARM CPU,TSMC 3nm 工艺,基于 Neoverse V3 架构)和Inferentia(推理加速芯片)形成了从 CPU 到训练到推理的完整自研算力矩阵。

[!tip]
AWS 的自研芯片策略的核心不是"取代 NVIDIA",而是拥有选择权。当 NVIDIA 涨价或供应不足时,Trainium 提供了替代方案——这种战略期权本身就价值数十亿美元。

[!warning]
Trainium 的软件生态仍在建设中。PyTorch 2.0 对 Trainium 的原生支持是一个积极信号,但在模型兼容性、调试工具、社区资源方面,Trainium 仍然远落后于 CUDA 生态。

💡 一句话理解

AWS 自研芯片策略的核心是拥有选择权,当 NVIDIA 涨价或供应不足时,Trainium 提供替代方案。

⚠️ 常见踩坑

Trainium 的软件生态仍在建设中,在模型兼容性和社区资源方面远落后于 CUDA 生态。

5Meta MTIA:每六个月一代的激进路线图

Meta 在 2026 年 3 月披露了行业中最激进的定制芯片路线图——一次性发布四代 MTIA 芯片(300 到 500),部署周期直到 2027 年。更令人惊讶的是,新芯片的发布节奏约为每六个月一代

MTIA 400已经投入部署:提供 6 PFLOPS FP8 和 18 PFLOPS MX4 算力,288GB HBM 显存,带宽 9.2 Tbps,功耗 1200W。Meta 已在 Facebook 和 Instagram 的推理工作负载中部署了数十万颗 MTIA 芯片

MTIA 500计划于 2027 年大规模部署:FP8 算力提升至 10 PFLOPS,MX4 算力达到 30 PFLOPS,HBM 显存高达 512GB,带宽 27.6 Tbps,采用 2x2 chiplet 配置,功耗 1700W。

从 MTIA 300 到 MTIA 500 的进化令人瞩目:HBM 带宽增长 4.5 倍,算力增长 25 倍。这种进化速度在芯片行业是前所未有的——传统芯片迭代周期通常是 2 到 3 年,而 Meta 将这个周期压缩到了 6 个月。

但 Meta 明确表示:MTIA 不是 NVIDIA 的替代品。2026 年 2 月,Meta 与 NVIDIA 签署了价值数百亿美元的"数百万颗 AI 芯片"协议,包括 Grace Blackwell 和未来的 Vera Rubin 平台。定制芯片处理大规模优化推理,NVIDIA GPU 处理前沿模型训练——这是 Meta 的双轨策略。

TSMC 自研设计:与其他 hyperscaler 依赖 Broadcom 不同,Meta 的 MTIA 采用自主设计 + TSMC 代工的模式。这使得 Meta 拥有最大的设计自主权,但也承担了全部的设计风险。

图表加载中…

💡 一句话理解

Meta 的双轨策略值得借鉴:定制芯片处理推理,NVIDIA GPU 处理训练。不必二选一,两者可以共存。

⚠️ 常见踩坑

Meta 的自主设计模式风险最高——所有设计缺陷和延期都由 Meta 自己承担,没有 Broadcom 这样的合作伙伴分摊风险。

6economics:定制芯片的经济账

定制芯片的巨额投入(设计费用数亿到数十亿美元,量产费用数十亿美元)是否值得?让我们算一笔经济账。

NVIDIA GPU 的成本结构:以 H100 为例,单卡售价约 3 万到 4 万美元(市场价格波动剧烈)。一个典型的 AI 推理集群可能需要数千张 GPU,总成本轻松突破数亿美元。此外,NVIDIA 的毛利率约 75%,意味着客户支付的价格中,大部分是 NVIDIA 的利润

定制 ASIC 的成本结构:前期投入包括设计费用(数亿美元)和流片费用(每片约 1000 万美元,需要多次流片)。但一旦量产,单颗芯片的制造成本远低于采购 GPU 的价格——因为省去了 NVIDIA 的 75% 毛利率,且 ASIC 的硅片利用率更高(不需要为通用功能付钱)。

盈亏平衡分析:假设一个 hyperscaler 每年需要部署 10 万颗 AI 芯片

  • NVIDIA 方案:10 万 × 3.5 万美元 =35 亿美元/年
  • ASIC 方案:前期投入 15 亿美元(设计+流片)+ 量产成本 10 万 × 8000 美元 =23 亿美元(首年)

首年即可节省约 12 亿美元,第二年及以后每年节省约 27 亿美元(无需重复投入设计费用)。对于每年 AI 基础设施资本支出超过 1000 亿美元的 hyperscaler 而言,这是一笔无法忽视的经济账。

TSMC 是另一个受益者:2025 年 TSMC 营收 1224 亿美元,同比增长 36%,预计 AI 芯片营收到 2029 年将保持 60% 的年复合增长率。所有主要的定制 ASIC 项目都由 TSMC 代工,定制芯片的繁荣直接转化为 TSMC 的产能扩张和收入增长

图表加载中…
方案前期投入单颗成本首年总成本次年及以后5 年总成本

NVIDIA GPU 采购

0

~3.5 万美元

~35 亿美元

~35 亿美元/年

~140 亿美元

定制 ASIC 自研

~15 亿美元

~8000 美元

~23 亿美元

~8 亿美元/年

~47 亿美元

节省幅度

~77%

~34%

~77%

~66%

💡 一句话理解

定制芯片的盈亏平衡点通常在部署量超过 5 万颗时到来。低于这个规模,采购 GPU 仍然是更经济的选择。

⚠️ 常见踩坑

ASIC 成本估算高度依赖良率和量产规模。如果良率低于 80%,实际成本可能显著高于预估。

7地缘政治:AI 芯片的供应链战争

AI 芯片不仅仅是技术问题,更是地缘政治的核心议题。2026 年的芯片格局深受中美科技竞争的影响。

TSMC 的垄断地位:全球几乎所有先进 AI 芯片(NVIDIA GPU、Google TPU、Apple A/M 系列、AMD GPU)都由 TSMC 代工。TSMC 的 3nm 和 2nm 产线是 AI 时代的石油管道——谁控制了这些产线,谁就控制了 AI 的未来。TSMC 目前 100% 满负荷运转,需求约为产能的三倍,这种供需失衡给了 TSMC 极强的议价能力。美国对华芯片出口管制:NVIDIA 在中国市场的份额已降至接近零——华为昇腾芯片在中国 AI 芯片市场中取而代之。据估计,华为 2026 年 AI 芯片收入将达到 120 亿美元,中国本土代工厂(SMIC 等)正在努力满足需求。这种"脱钩"趋势意味着全球 AI 芯片市场正在分裂为两个平行的生态系统——一个以 TSMC/NVIDIA 为核心,另一个以 SMIC/华为为核心。Broadcom 的地缘风险:作为一家美国公司,Broadcom 的设计能力受到美国出口管制的约束。如果中美科技竞争进一步升级,Broadcom 可能无法为中国客户设计芯片——这将为 Marvell 或其他竞争对手创造机会。供应链多元化趋势:为降低对 TSMC 的依赖,美国正在推动 Intel Foundry 和三星代工的 AI 芯片制造。但短期内,TSMC 的技术领先地位(2nm 预计在 2026 年下半年量产)仍难以撼动

[!tip]
供应链安全是定制芯片战略的重要考量。拥有自主芯片设计能力的 hyperscaler 在供应链中断时具有更强的韧性——这是单纯采购 GPU 所无法获得的安全溢价。

[!warning]
不要低估地缘政治对 AI 芯片市场的影响。 一次出口管制政策的变更、一次地缘冲突的升级,都可能在一夜之间改变市场格局。

💡 一句话理解

供应链安全是定制芯片战略的重要考量,自主设计能力在供应链中断时提供韧性。

⚠️ 常见踩坑

地缘政治对 AI 芯片市场的影响可能被低估。一次出口管制变更可能一夜之间改变市场格局。

8NVIDIA 的反击:Vera Rubin 与生态壁垒

面对 ASIC 的崛起,NVIDIA 并非毫无准备。Vera Rubin 平台是 NVIDIA 的下一世代旗舰产品——50 PFLOPS FP4 算力、288GB HBM4 显存,性能大幅超越当前的 Blackwell 系列。但 NVIDIA 真正的护城河不是硬件,而是 CUDA 生态CUDA 生态的壁垒有多深? 全球超过 400 万开发者在使用 CUDA,数百万行代码基于 CUDA 编写,几乎所有主流 AI 框架(PyTorchTensorFlow、JAX)都优先支持 CUDA将代码从 CUDA 迁移到自定义芯片,不仅是技术挑战,更是人才和时间的挑战——全球熟悉 CUDA 的开发者数量远超任何替代方案的开发者数量。NVIDIA 的全栈战略:NVIDIA 正在从"芯片公司"转型为"AI 基础设施公司"。除了 GPU 硬件,NVIDIA 提供:
-DGX 超算系统——即插即用的 AI 超级计算机
-CUDA 软件栈——从驱动到编译器到库的完整工具链
-NIM(NVIDIA Inference Microservices)——预训练模型的推理服务
-Omniverse——数字孪生和物理 AI 仿真平台
-Nemo——企业级大模型微调平台

这种全栈覆盖意味着客户购买的不是"一块芯片",而是 一整套从硬件到软件的 AI 解决方案。对于缺乏 AI 基础设施自建能力的企业而言,NVIDIA 的全栈方案仍然具有不可替代的价值。NVIDIA 的定价策略调整:面对竞争压力,NVIDIA 已经开始调整其推理产品的定价策略。分析师预计,NVIDIA 在推理市场的份额可能从 90% 以上降至 2028 年的 20-30%,但这一下降将被训练市场的高利润和软件服务收入部分抵消。

图表加载中…

💡 一句话理解

评估 NVIDIA 竞争力时,不要只看芯片性能。CUDA 生态和全栈方案才是真正的护城河。

⚠️ 常见踩坑

NVIDIA 推理市场份额预计将从 90% 以上降至 2028 年的 20-30%。但训练市场的高利润和软件服务收入将部分抵消这一下降。

9中国 AI 芯片:脱钩中的自主之路

在全球 AI 芯片竞争中,中国是一个不可忽视的变量。在美国出口管制的压力下,中国正在走一条完全自主的 AI 芯片之路

华为昇腾(Ascend)系列是中国最成熟的 AI 芯片产品线。在美国禁止 NVIDIA 向中国出口高端 GPU 后,华为昇腾芯片在中国市场的份额快速提升。据估计,华为 2026 年 AI 芯片收入将达到 120 亿美元——这是在美国制裁下逆势增长的惊人成绩。

中国 AI 芯片市场的特殊性
-政策驱动——中国政府正在大力投资半导体产业,目标是 2027 年前实现 70% 的芯片自给率
-内需巨大——中国 AI 模型的训练和推理需求快速增长,腾讯混元周调用量达 2.66 万亿 Token
-技术差距缩小——中国在成熟制程(14nm、7nm)的芯片制造能力正在提升,虽然与 TSMC 的 3nm 仍有代差,但在推理场景中差距的影响被部分稀释

中国定制芯片的挑战:最关键的瓶颈不在设计能力,而在制造能力。即使中国公司能够设计出先进的 AI 芯片,如果没有先进的制程工艺(3nm、2nm),芯片的性能和能效将显著落后。SMIC 的 7nm 工艺良率和产能仍然是制约因素。

地缘分裂的长期影响:全球 AI 芯片市场正在分裂为两个生态——以 TSMC/NVIDIA/Broadcom 为核心的全球生态以 SMIC/华为/中国本土设计为核心的中国生态。两个生态之间的技术差距可能在未来几年内持续存在,但中国生态的自主性会不断增强。

[!tip]
对于关注中国市场的开发者而言,华为昇腾生态是值得关注的方向。CANN(Compute Architecture for Neural Networks)是昇腾的软件栈,类似于 CUDA 在 NVIDIA 生态中的地位。

[!warning]
中国 AI 芯片的性能与国际领先水平仍有代差。在追求极致性能的场景下(如前沿模型训练),目前仍无法完全替代 NVIDIA GPU

💡 一句话理解

华为昇腾生态是中国市场值得关注的方向,CANN 软件栈是昇腾生态的基础。

⚠️ 常见踩坑

中国 AI 芯片的性能与国际领先水平仍有代差,在前沿模型训练场景下无法完全替代 NVIDIA GPU。

10未来展望:2027-2030 芯片格局预测

展望未来 3 到 5 年,AI 芯片市场将呈现以下趋势:

ASIC 出货量超越 GPU:分析师预测,到 2028 年,ASIC 芯片出货量将首次超过 GPU 出货量。这并不意味着 GPU 市场萎缩——GPU 市场仍在增长,但 ASIC 的增长更快。2030 年,定制 AI 加速器市场规模预计将超过 6000 亿美元

混合集群成为主流:未来的 AI 基础设施将不再是"全 NVIDIA"或"全 ASIC",而是混合架构——训练用 NVIDIA GPU,推理用定制 ASIC,CPU 用自研 ARM 处理器。AWS 的 NVLink Fusion 策略预示了这一方向。

开源芯片设计兴起:RISC-V 架构在 AI 芯片设计中的应用正在扩展。未来可能出现开源的 AI 加速器 ISA(指令集架构),降低定制芯片的设计门槛,使中小型企业也能参与到定制芯片的浪潮中。

Chiplet 技术加速迭代:AMD 和 Intel 推动的 Chiplet(小芯片)技术正在改变芯片设计范式。通过将不同功能的芯片模块(计算、内存、互连)封装在一起,Chiplet 使芯片设计更加灵活和模块化。Meta 的 MTIA 500 已经采用 2x2 chiplet 配置。

光计算和量子计算的远期威胁:虽然短期内不会取代电子芯片,但光计算(光子芯片)和量子计算的研究正在加速。2030 年之后,可能出现全新的 AI 计算范式——届时今天的 GPU vs ASIC 之争可能变得无关紧要。

图表加载中…

[!tip]
关注芯片行业的人应该特别关注 Broadcom 的季度财报——它是定制 AI 芯片市场的"晴雨表"。Broadcom 的 AI 收入增长速度和积压订单量是判断行业趋势的最可靠指标。

[!warning]
不要将市场份额预测视为确定性事件。 芯片行业的技术突破和地缘变化都可能迅速改变竞争格局。保持灵活性和多元化视角是理解这个行业的关键。

💡 一句话理解

关注 Broadcom 的季度财报,它是定制 AI 芯片市场的晴雨表。

⚠️ 常见踩坑

市场份额预测不是确定性事件。芯片行业的技术突破和地缘变化都可能迅速改变竞争格局。

11本站观点:这场变革对开发者的意义

AI Master 认为,这场芯片变革对不同类型的参与者 有着截然不同的意义。对于 hyperscaler(Google、Amazon、Meta、Microsoft) :定制芯片是 必选项而非可选项。推理成本的控制直接影响利润率,供应链独立性是战略安全的基础。每家 hyperscaler 都应该有自己的芯片战略——无论是自研还是与合作伙伴共建。对于 NVIDIA 188:短期内无需恐慌。 训练市场仍然需要 GPU 的灵活性CUDA 生态的护城河短期内无法被撼动。但中长期来看,NVIDIA 必须找到推理市场的新定位——可能是通过"GPU + 软件服务"的全栈方案,而非单纯卖硬件。 对于 Broadcom 和 TSMC322:它们是 这场变革的最大受益者。无论哪家 hyperscaler 的芯片胜出,Broadcom 收取设计费用,TSMC 收取制造费用。这种"卖铲子"的商业模式风险最低、回报最确定。对于中小型企业和个人开发者:短期内,NVIDIA GPU + CUDA 生态仍然是最佳选择。定制芯片的开发和部署门槛太高,中小企业没有资源和规模来承担。但随着开源芯片设计和云厂商 TPU/Trainium 实例的普及,未来自定义芯片的使用门槛将逐步降低。对于中国开发者:华为昇腾生态是值得投入的方向。虽然性能与国际领先水平有差距,但在 国内市场,政策支持和本地化服务可以弥补性能差距。同时,关注 RISC-V 在 AI 领域的进展——这可能是未来中国 AI 芯片自主的另一条路径。总结AI 芯片市场正在经历从"一家独大"到"多元竞争"的结构性转变。这个过程将持续数年,最终的格局可能不是"ASIC 取代 GPU",而是 训练和推理由不同的芯片架构主导,形成分工明确的芯片生态。对于开发者而言,理解这一趋势的意义不在于选择哪家芯片,而在于 保持技术敏锐度——在芯片架构快速演进的年代,今天的"最佳选择"可能明天就不再适用。

[!tip]
如果你是开发者,学习 PyTorch 2.0 的多后端支持——这使得你的代码可以在 NVIDIA GPU、TPU、Trainium 等不同硬件上运行。掌握跨平台开发能力,是应对芯片格局变化的最佳策略。

[!warning]
不要将赌注压在单一芯片架构上。 芯片行业的历史充满了"被颠覆的霸主"——从 Intel x86 到移动时代的 ARM,从 PC 时代的 GPU 到 AI 时代的 ASIC。保持灵活性和学习能力比选择某个阵营更重要。

💡 一句话理解

学习 PyTorch 2.0 的多后端支持,掌握跨平台开发能力是应对芯片格局变化的最佳策略。

⚠️ 常见踩坑

不要将赌注压在单一芯片架构上。保持灵活性和学习能力比选择某个阵营更重要。

12扩展阅读

以下资源可帮助你深入了解定制 AI 芯片的技术和商业动态:

必读文章

  • Tom's Hardware, "The Custom AI ASIC State of Play (May 2026)" — 最全面的 ASIC 市场盘点
  • Introl, "Custom Silicon Inflection 2026" — Hyperscaler ASIC vs NVIDIA GPU 深度分析
  • Hashrate Index, "Hyperscaler AI ASIC Market Report" — Broadcom 生态全景

公司财报

  • Broadcom FY2026 Q1 财报 — AI 半导体收入 84 亿美元,同比增长 106%
  • TSMC 2025 年度财报 — 营收 1224 亿美元,AI 芯片 60% CAGR 预测
  • NVIDIA 最新财报 — 关注推理收入占比变化

技术参考

  • Google Cloud TPU 文档 — TPU 使用指南和性能基准
  • AWS Trainium 文档 — Trainium 实例配置和 PyTorch 集成
  • PyTorch 2.0 多后端支持 — 跨硬件部署的技术方案

行业分析

  • Oplexa, "Custom ASIC Market 2026: Why Hyperscalers Are Ditching NVIDIA" — 市场分析
  • CNBC, "Nvidia Blackwell, Google TPUs, AWS Trainium: Comparing Top AI Chips" — 芯片性能对比

[!tip]
建议从Tom's Hardware 的 ASIC 状态盘点开始,建立对整个市场的全景认知,再根据需要深入了解特定芯片或公司。

[!warning]
芯片行业的数据变化极快——本文中的性能指标、价格和市场份额数据可能在几个月内过时。阅读时请留意发布日期,并以最新的官方数据为准。

💡 一句话理解

建议从 Tom's Hardware 的 ASIC 状态盘点开始建立全景认知,再深入了解特定芯片或公司。

⚠️ 常见踩坑

芯片行业数据变化极快。性能指标、价格和市场份额数据可能几个月内过时,请以最新官方数据为准。

13更新于 2026-05-31:NVIDIA Vera CPU 正式交付与异构算力新时代

2026 年 5 月底,NVIDIA 的Vera CPU 正式交付至 Anthropic、OpenAI、Oracle Cloud Infrastructure 和 SpaceXAI 等顶级 AI 实验室。这是 NVIDIA109 109首款自主设计的 CPU 130125,标志着异构算力架构从概念走向大规模生产部署。

13.1 Vera CPU 技术规格

Vera CPU 的核心参数令人瞩目:

-88 核 Olympus 架构:NVIDIA 自研 CPU 核心,176 硬件线程(支持超线程)
-IPC 提升 1.5 倍:相比标准 CPU 的数据中心工作负载性能提升 50%
-LPDDR5X 内存:超大内存带宽,专为 AI 推理和 Agentic AI 优化
-NVLink C2C(Chip-to-Chip):低延迟芯片间互联,与 GPU 直接通信
-SCF(Scalable Coherency Fabric:NVIDIA 自研可扩展一致性互连
-Arm 架构兼容:基于 Arm 指令集,与 x86 生态形成差异化竞争
-全机密计算支持:硬件级加密和可信执行环境

Vera 不是通用 CPU,而是专门为 Agentic AI 工作负载设计的 CPU。它的架构选择(Arm 核心、高内存带宽、NVLink C2C)都服务于同一个目标:让 Agent 的持续推理和工具调用保持最高效率

13.2 Vera CPU Rack:机架级异构架构

NVIDIA 在 GTC 2026 上同时发布了 Vera CPU Rack——将256 颗液冷 Vera CPU 724集成到一个机架中,实现:

  • CPU 吞吐量提升 6 倍 : 相比传统 CPU 机架
  • Agentic AI 工作负载性能翻倍:256 颗 CPU 协同工作,专门优化 Agent 场景
  • 液冷散热:256 颗 CPU 的功耗需要液冷方案,这也代表了数据中心散热的新标准

13.3 对 ASIC vs GPU 竞争格局的影响

Vera CPU 的交付对定制 AI 芯片(ASIC)市场产生了深远影响:对 NVIDIA 的战略意义:

  • 从「GPU 公司」转型为「 全栈 AI 算力公司」(CPU + GPU + 网络 + 软件)- 直接竞争 Intel 和 AMD 的数据中心 CPU 市场- 通过 Vera + GPU 的异构组合,提供端到端的最优 AI 算力方案 对 ASIC 厂商的挑战:

  • Google TPU、AWS Trainium 等 ASIC 原本的优势在于 摆脱对 NVIDIA GPU 的依赖- 现在 NVIDIA 提供了 CPU + GPU11901186 的完整方案,ASIC 的成本优势被部分抵消- 但 ASIC 在特定工作负载(如大规模训练)中仍然具有不可替代的能效优势 对 Anthropic 和 OpenAI 的意义:

  • 首批 Vera CPU 交付给 Anthropic 和 OpenAI,表明这两家公司正在 优化其 Agent 1334 推理基础设施- Agentic AI 需要大量 CPU 资源来管理 Agent 的工具调用状态管理和并发推理- Vera 的高内存带宽(LPDDR5X)特别适合 Agent 场景中的 上下文缓存和检索> Vera CPU 的交付表明:AI 算力竞争已经从单一 GPU 性能升级,进入了 CPU-GPU-网络全栈异构优化的新阶段。这对 ASIC 厂商提出了新的挑战——不仅要比拼 GPU 性能,还要面对 NVIDIA 的全栈整合优势。

图表加载中…

💡 一句话理解

如果你在做 AI 基础设施选型,Vera CPU 的发布意味着 NVIDIA 现在提供了 CPU + GPU 的全栈方案。在评估 ASIC 替代方案时,需要将 Vera + GPU 的组合成本与 ASIC 进行对比,而非仅比较 GPU 价格。

14更新于 2026-05-31:NVIDIA Q1 FY2026 财报与 CPU 复兴对 ASIC 竞争格局的重塑

NVIDIA 于 2026 年 5 月发布的 Q1 FY2026 财报揭示了 AI 芯片市场的最新结构性变化,对 ASIC vs GPU 的竞争格局产生了深远影响。

14.1 Q1 FY2026 关键数据

-总收入:816 亿美元,同比增长 85%,环比增长 20%
-数据中心收入:752 亿美元,占总收入约 92%
-Q2 营收指引:910 亿美元(中值),超出分析师预期 5.7%
-Blackwell 系列被称为"公司历史上最快的产品爬坡"

Vera CPU 的商业化进展:

  • NVIDIA CFO 预计本财年 CPU 收入达到约 200 亿美元
  • 这将使 NVIDIA 成为全球最大 CPU 供应商(按收入),超过 Intel 和 AMD 的总和
  • 分析师预测 FY2027 Vera CPU 交付量达400 万颗
  • 早期买家已确认:CoreWeave、Meta、Oracle、阿里巴巴
  • 首批 Vera CPU 已交付:Anthropic、OpenAI、SpaceX

14.2 CPU 复兴对 ASIC 竞争格局的三重影响

第一重:NVIDIA 全栈优势强化

随着 Vera CPU 的发布,NVIDIA 从"GPU 供应商"转型为"全栈 AI 基础设施提供商"(CPU + GPU + 网络 + DPU + LPU)。这对 ASIC 厂商构成新的挑战:

  • 原来 ASIC 的优势在于"摆脱 NVIDIA GPU 依赖"
  • 现在 NVIDIA 提供了CPU + GPU 的完整异构方案,ASIC 的成本优势被部分抵消
  • Vera Rubin 平台整合七种芯片,提供端到端的 AI 超级计算方案,ASIC 无法匹配这种平台级整合

第二重:CPU:GPU 采购比例结构性变化

AI 数据中心的采购比例正在从 1:8 回升到 1:4。这意味着:

  • GPU 在 AI 基础设施预算中的占比下降
  • CPU(尤其是针对 Agent 优化的 CPU)的预算占比显著上升
  • NVIDIA 同时吃到了 GPU 和 CPU 的增长,而 ASIC 厂商只聚焦于 GPU 替代

第三重:Intel 和 AMD 的反击

Intel 在 2026 年 5 月市值一个月内翻了 3.5 倍,市场重新认识到 CPU 在 Agent 时代的价值。Intel 的反击策略包括:

  • 即将推出的Wildcat Lake 处理器(入门级)
  • x86 生态的成熟度和现有客户锁定
  • 与 Broadcom 等 ASIC 厂商的合作关系

AMD 在 Q1 2026 实现总收入 103 亿美元,同比增长 38%。AMD 的优势在于:高性价比的 EPYC 处理器和在通用服务器市场的稳固地位。

图表加载中…

14.3 Broadcom 的持续强势

尽管 NVIDIA 的全栈优势在强化,Broadcom 的 AI 半导体收入仍然强劲:

  • Q1 2026:84 亿美元,同比增长 106%
  • Q2 指引:107 亿美元,同比增长 140%
  • 2027 财年目标:1000 亿美元 AI 收入
  • 已签约客户积压订单 730 亿美元
  • 与 Google 的 TPU 长期供应协议直到 2031 年

Broadcom 的成功表明:定制化 ASIC 在特定场景下的经济优势仍然存在。Google TPU 在大规模训练中的能效仍然优于通用 GPU。

14.4 竞争格局总结

维度 NVIDIA ASIC 阵营 Intel/AMD
收入规模 816 亿美元(Q1) Broadcom 84 亿(Q1) Intel DC 50 亿,AMD 103 亿
架构 CPU+GPU+网络全栈 定制化 ASIC x86 通用 CPU
生态优势 CUDA + Vera Rubin 特定场景优化 x86 生态成熟
增长点 CPU 200 亿预期 推理市场扩张 Wildcat Lake + EPYC

NVIDIA Vera CPU 的发布将 AI 芯片竞争从单一芯片性能升级为平台级生态竞争。ASIC 厂商需要在特定场景的深度优化上寻找差异化优势,而 Intel 和 AMD 则需要利用 x86 生态优势和性价比策略守住阵地。

💡 一句话理解

关注 Computex 2026(2026 年 6 月)上 NVIDIA 展示 Vera CPU 与 x86 芯片的实际性能对比数据。这将验证 NVIDIA 声称的 1.5x 性能优势是否成立,直接影响 ASIC 厂商的竞争策略。

⚠️ 常见踩坑

NVIDIA 的全栈策略意味着 ASIC 厂商面临更大的竞争压力。但 ASIC 在特定工作负载(如大规模训练)中的能效优势仍然存在——不要被 NVIDIA 的平台优势误导,忽视了 ASIC 在细分市场的竞争力。

15更新于 2026-06-02:GTC 2026 Vera Rubin 全面量产与 AI 工厂时代到来

GTC 2026 圆满落幕,Vera Rubin 架构全面量产,黄仁勋宣布「有用的 AI 已经到来」

GTC 2026 核心发布

2026 年 3 月 16-19 日(GTC 2026),NVIDIA 正式揭幕了下一代Vera Rubin架构。这是从 Blackwell 到下一代的全面升级,包含四个核心组件:

1.Vera CPU:NVIDIA 首款专为 AI 智能体打造的 CPU,采用 ARM 架构,针对 Agent 工作负载进行了深度优化
2.Rubin GPU:搭载HBM4 内存的下一代 GPU,训练和推理性能相比 Blackwell 提升 2-3 倍
3.NVLink 7:新一代互连协议,带宽进一步提升
4.Rubin CPX:面向高吞吐量推理的专用架构

Vera Rubin NVL72 系统:72 颗 Rubin GPU 的机架级系统,相比 Blackwell NVL72:
-推理 token 成本降低 10 倍
-训练所需 GPU 数量减少 4 倍(同等规模模型)

四种 Vera Rubin 机架配置

GTC 2026 展示了四种主要的 Vera Rubin 机架配置,分别针对不同的 AI 工作负载:

配置 核心组件 主要场景
Vera CPU Rack Vera CPU 集群 Agent 工作负载(CPU 是智能体瓶颈)
Rubin NVL72 72 Rubin GPU 大规模训练 + 推理
Rubin CPX Rack Rubin CPX 吞吐量推理
Vera Rubin 混合 CPU + GPU 混合 通用 AI 工厂

HPE 首批 Vera Rubin 系统交付

HPE 在 GTC 2026 上发布了基于 Vera Rubin 的完整产品线:
-HPE Cray Supercomputing GX240:基于 Vera CPU 的计算刀片,面向万亿参数模型
-HPE Vera Rubin NVL72:72 颗 Rubin GPU 的机架系统,推理 token 成本降低 10 倍
-HPE Private Cloud AI:扩展了气隙隔离配置,适用于主权和监管环境

NVIDIA Polar GRPO 训练框架

GTC 2026 上,NVIDIA 还发布了Polar GRPO 训练框架,这是专门针对 Agent 编码能力的优化方案。数据显示,使用 Polar 后,Codex 的编码能力从3.8% 提升到 26.4%——这是一个近 7 倍的提升

NVIDIA Nemotron-3 Ultra

同时发布的还有Nemotron-3 Ultra(55B MoE 开源模型),推理速度提升 5 倍。这是一个面向企业级的开源模型,进一步降低了中小企业的 AI 使用门槛。

图表加载中…

对中美 AI 芯片竞争格局的影响

对 NVIDIA 的强化

  • Vera Rubin 架构的发布进一步巩固了 NVIDIA 的全栈 AI 基础设施优势
  • CPU + GPU + 网络的整合方案让 ASIC 厂商的差异化空间进一步缩小
  • HBM4 内存的集成意味着 NVIDIA 在存储带宽上也建立了壁垒

对 ASIC 阵营的挑战

  • Rubin GPU 的性能提升(2-3 倍)缩小了 ASIC 在训练场景的能效优势
  • Vera CPU 的发布意味着 NVIDIA 不再是纯 GPU 供应商,ASIC 的「去 NVIDIA 化」叙事受到冲击
  • 但 Broadcom 的 Q1 收入仍然强劲(84 亿美元,+106%),说明定制化 ASIC 在特定场景仍有不可替代的价值

对中国芯片产业的启示

  • NVIDIA Vera Rubin 架构的算力提升意味着中国芯片厂商需要加速追赶
  • 昇腾 950PR、昆仑芯等国产芯片需要在 Vera Rubin 量产前完成商业化验证
  • 中国 AI 产业需要同时关注算力追赶生态建设CUDA 替代方案)

💡 一句话理解

关注 HPE 和戴尔等服务器厂商的 Vera Rubin 系统交付时间表——这决定了架构从发布到大规模商用落地的时间。同时关注 Computex 2026 上 NVIDIA 与 Intel/AMD 的实际性能对比数据。

⚠️ 常见踩坑

GTC 2026 发布的是架构参数和早期样品数据,实际大规模商用性能需要等到 HPE 等厂商的首批系统交付后才能验证。不要将发布会上的理论性能等同于实际生产环境的性能。

NVIDIA 历代 GPU 架构推理性能

图表加载中…

黄仁勋的关键判断

黄仁勋在 GTC 2026 主题演讲中宣布:「有用的 AI 已经到来」(Useful AI is here)。这标志着 NVIDIA 的战略从「构建更强算力」转向「让 AI 真正可用」——从 GPU 性能竞赛走向 AI 工厂的系统级优化。

AI 工厂(AI Factory)概念:黄仁勋将未来的 AI 基础设施定义为「AI 工厂」——不是单一的 GPU 或 CPU,而是包含计算、存储、网络、冷却、软件栈的完整系统。Vera Rubin 架构就是第一代 AI 工厂的基础设施。

GTC 2026 战略转向

图表加载中…