核心要点

  • GPU 拥有数千个计算核心,擅长同时处理大量相同的简单运算(大规模并行)。

  • 深度学习的核心计算是大量矩阵乘法和加法,天然可以并行拆解。

  • CPU 核心少但单核强,适合复杂串行逻辑;GPU 核心多,适合海量并行的数值计算。

  • 在训练大模型时,GPU 通常比 CPU 快几十倍,大幅缩短训练时间。

标准回答

深度学习算的是什么

神经网络的前向和反向传播,本质上是一层层的矩阵乘法和加法。这些运算的特点是:数量极大,但每个单独的乘加都很简单,而且彼此独立、可以同时算。

GPU 为什么合适

GPU 当初是为图形渲染设计的,要同时给屏幕上几百万个像素做计算,所以它堆了数千个小核心,专门用来「同一时间做很多个相同的简单计算」。这正好契合深度学习里大规模并行的矩阵运算。

和 CPU 的对比

CPU 像几个博士生,单兵能力强、擅长处理复杂多变的串行任务,但人少;GPU 像几千个小学生,每人只会做简单算术,但人多、能一起上。算 1+1 这种海量简单题,人多的一方碾压。所以在大矩阵运算上,GPU 往往比 CPU 快几十倍,让原本要跑几个月的训练缩短到几天。

常见误区

⚠️ 常见踩坑

GPU 不是「什么都比 CPU 快」。对于分支多、逻辑复杂、难以并行的串行任务,CPU 反而更高效。GPU 的优势只在于大规模、规整、可并行的数值计算(如矩阵乘)。

追问

追问 1显存(VRAM)为什么重要?

训练时模型参数、激活值、梯度都要放进 GPU 的显存里。显存不够就装不下大模型或大 batch,会报「显存溢出」。所以显存大小常常直接决定你能训多大的模型、用多大的 batch,是选 GPU 时的关键指标。

追问 2除了 GPU,还有别的加速硬件吗?

有。比如谷歌的 TPU 是专为深度学习张量运算设计的芯片;还有各类 NPU、推理专用加速卡等。它们思路类似——为大规模并行的神经网络计算做专门优化,但 GPU 因生态成熟(如 CUDA)目前仍是主流。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。