AI 芯片

专门跑模型的芯片

AI 芯片是专为神经网络矩阵与张量运算而优化的硬件加速器，涵盖 GPU、TPU、NPU 等多种形态，是支撑大模型训练与推理的算力基础。与通用 CPU 相比，AI 芯片通过大规模并行计算单元和高带宽存储大幅提升吞吐量，已成为 AI scaling 时代的核心基础设施。

概述

神经网络的核心计算是矩阵乘法，其规模随模型参数量增长，通用 CPU 的串行设计难以胜任，由此催生了专用 AI 芯片。

GPU（图形处理器）：源自图形渲染，NVIDIA 凭借 CUDA 生态主导 AI 训练市场，从 2012 年起成为深度学习主力
TPU（张量处理器）：Google 为矩阵乘法定制的 ASIC，核心是脉动阵列（Systolic Array）结构，从 2015 年起在数据中心内部部署
NPU（神经网络处理器）：集成于手机、PC 等 SoC 的端侧推理加速器，以极低功耗运行量化小模型
定制 ASIC 与新兴方案：Cerebras（晶圆级芯片）、Groq（确定性推理）、华为昇腾等，探索差异化架构路线

训练和推理对硬件的需求截然不同，直接影响芯片的架构取舍。

不同厂商围绕 AI 工作负载形成了各具特色的架构路线。

NVIDIA GPU：Volta（2017 年，首次引入 Tensor Core）→ Ampere A100（2020 年）→ Hopper H100（2022 年，引入 FP8 与 Transformer Engine）→ Blackwell B200（2024 年）
Google TPU：TPU v1（2015 年内部，专注推理）→ TPU v2/v3（支持训练）→ TPU v4/v5（超算级 ICI 互联），核心是脉动阵列高效执行矩阵乘法
端侧 NPU：苹果 Neural Engine、高通 Hexagon DSP、华为达芬奇架构，面向低功耗场景下的量化推理
国产芯片：华为昇腾（Atlas 系列）、寒武纪 MLU 等在出口管制背景下加速迭代，填补高端 GPU 缺口

AI 芯片的演进与深度学习浪潮紧密耦合。

2012：AlexNet 依赖双 NVIDIA GPU 并行训练赢得 ImageNet，GPU 正式进入深度学习主流
2015：Google 内部部署 TPU v1，首次将定制 ASIC 用于大规模数据中心 AI 推理（支撑 Google 搜索、Street View 等业务）
2017：Google 在 ISCA 公开 TPU 论文；同年 NVIDIA Volta 架构推出 Tensor Core，深度学习吞吐大幅提升
2020：NVIDIA A100（Ampere）发布，HBM2e 带宽达 2 TB/s，成为 GPT-3 训练的主力芯片
2022：NVIDIA H100（Hopper）发布，训练吞吐约为 A100 的 2.4 倍；美国开始对华实施高端 GPU 出口管制
2024：NVIDIA Blackwell B200 发布，单卡峰值达 20 PFLOP/s（FP4），AI 芯片进入万亿参数规模时代

评估 AI 芯片性能需综合多个维度，单一指标容易误导决策。

芯片算力是 AI 能力 scaling 的物质基础，两者形成正反馈循环。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。