CUDA

NVIDIA GPU 编程接口

亦作、亦称：Compute Unified Device Architecture

CUDA（Compute Unified Device Architecture）是 NVIDIA 于 2006 年底发布的通用并行计算平台与编程模型，让开发者能够用类 C 语言直接调度 GPU 的数千个核心执行大规模并行运算。它是当代深度学习训练与推理生态的核心基础设施，几乎所有主流框架的 GPU 加速路径都建立在它之上。

概述

核心定位

CUDA 将 GPU 从图形专用硬件变为可编程的通用并行处理器，开创了 GPGPU（通用 GPU 计算）时代。

全称：Compute Unified Device Architecture，强调统一的计算架构抽象
编程接口：开发者用 CUDA C/C++ 编写「内核函数」（Kernel），由编译器 NVCC 编译为 PTX 中间码再映射到硬件指令
平台组成：包含编译器、运行时（CUDA Runtime）、调试器、性能分析器以及丰富的加速库
生态地位：PyTorch、TensorFlow、JAX 等主流框架的 GPU 算子底层均调用 CUDA 内核

线程层次结构

CUDA 以四级嵌套结构组织并发执行单元，是性能调优的关键理解点。

Thread（线程）：最小执行单元，每条线程独立运行内核函数
Warp（束）：32 条线程组成一个 Warp，由流多处理器（SM）以 SIMD 方式同步执行；分支分叉（Branch Divergence）会导致序列化
Block（线程块）：多个 Warp 组成一个线程块，块内线程可通过共享内存（Shared Memory）低延迟通信
Grid（网格）：多个块构成网格，对应一次完整的内核启动；块之间相互独立，便于跨 SM 扩展

内存模型

合理利用 GPU 内存层次是 CUDA 性能优化的核心，不同层级速度差异可达百倍。

全局内存（Global Memory）：容量最大（数 GB），延迟最高，所有线程均可访问；内存合并访问（Coalesced Access）可大幅提升带宽利用率
共享内存（Shared Memory）：片上缓存，Block 内线程共享，延迟极低，相当于可编程的 L1 缓存
寄存器（Registers）：每条线程私有，速度最快，但数量有限，超出时发生「寄存器溢出」
常量内存 / 纹理内存：只读路径，适合广播型访问模式，有专用缓存加速
CUDA Stream：允许多个内核或数据传输并发执行，用于隐藏 CPU-GPU 通信延迟

核心库与工具链

CUDA 生态提供大量高性能库，深度学习框架直接依赖这些库而无需手写底层内核。

cuBLAS：GPU 版 BLAS 线性代数库，覆盖矩阵乘法（GEMM）等核心操作，Transformer 训练的矩阵计算直接依赖
cuDNN：深度神经网络加速库，实现卷积、池化、归一化、注意力等算子的高度优化版本
TensorRT：推理优化引擎，支持层融合、INT8/FP16 量化，大幅降低部署延迟
NCCL：多 GPU/多节点集合通信库，AllReduce 等分布式训练操作的底层实现
Thrust / CUB：并行算法模板库，提供类 STL 风格的 GPU 数据结构与算法

发展脉络

CUDA 的演进与深度学习的崛起高度交织，推动了现代 AI 基础设施的形成。

2006：NVIDIA 于 11 月宣布 CUDA，同期发布 G80（GeForce 8 系列）架构，首次支持通用并行计算
2007：CUDA 1.0 正式发布，开放 GPU 通用计算能力给外部开发者
2012：AlexNet 在 ImageNet 比赛夺冠，其训练依赖两块 GTX 580 + CUDA，标志 GPU 深度学习时代到来
2014：cuDNN 1.0 发布，大幅简化卷积神经网络的 GPU 编程门槛
2017：Volta 架构（V100）引入张量核心（Tensor Core），专为混合精度矩阵乘法设计，训练吞吐大幅提升
2020：Ampere 架构（A100）发布，支持 TF32/BF16，成为大模型训练主力
2022：Hopper 架构（H100）引入 FP8 精度与 Transformer Engine，针对大语言模型训练进一步加速

局限与常见误区

CUDA 并非万能，使用中存在一些常见认知误区与实际瓶颈。

误区「换 GPU 就自动变快」：低效的内存访问模式、频繁的 CPU-GPU 数据搬运（PCIe 瓶颈）、过小的 batch size 都会让 GPU 利用率极低
厂商锁定：CUDA 代码只能运行在 NVIDIA GPU 上，迁移到 AMD（ROCm）或 Apple Silicon 需要重写或使用转译工具
显存瓶颈：GPU 显存（VRAM）远小于系统内存，大模型训练中显存溢出（OOM）是常见障碍
版本兼容陷阱：框架编译时绑定特定 CUDA 版本，升级驱动或更换硬件后需对应重新配置环境
竞争替代方案：AMD ROCm/HIP、Intel OneAPI、Apple Metal 正持续追赶，但 CUDA 的软件积累壁垒仍显著

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「NVIDIA GPU 编程接口」
「深度学习跑在显卡上的基础」
「写 GPU kernel 的平台」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「CUDA」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

CUDA

概述

核心定位

线程层次结构

内存模型

核心库与工具链

发展脉络

局限与常见误区

常见误解

相关术语

延伸阅读

NVIDIA RTX Spark：消费级AI芯片架构与Windows AI代理平台全景解读

AI 芯片地缘政治：从中美博弈到全球供应链重构

模型量化与压缩：从 FP32 到 INT4 的完整指南（ML 全场景）

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕