什么是 CUDA？它与 PyTorch 有何关系？

Question 1

Accepted Answer

CUDA（Compute Unified Device Architecture）是 NVIDIA 提供的 GPU 通用并行计算平台，含驱动、运行时、C/C++ 编译器及 cuBLAS、cuDNN 等库。 与 PyTorch 的关系： - PyTorch 的 torch.cuda 模块封装 CUDA API，在 GPU 上执行 张量 运算 - 核心算子（矩阵乘、卷积）调用 cuBLAS/cuDNN 高度优化 - 训练大模型时 GPU 相对 CPU 可有 10～100× 加速 基本用法： ``python device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device) x = x.to(device) `` 注意：需安装与 PyTorch 版本匹配的 CUDA 驱动；多卡用 cuda:0、DistributedDataParallel；torch.backends.cudnn.benchmark = True 可优化固定输入尺寸的卷积。 CPU 训练仅适合小实验；深度学习 工业化几乎依赖 GPU/TPU。AMD 用 ROCm，Apple 用 MPS 后端。

Question 2

PyTorch 安装的 CUDA 版本和系统驱动关系？

Accepted Answer

pip/conda 装的 PyTorch 自带匹配版本的 CUDA 运行时（toolkit），所以本机无需单独装 CUDA toolkit；但仍需系统装有足够新的 NVIDIA 显卡驱动。关系是：驱动需 ≥ 该 CUDA 运行时要求的最低版本（向后兼容），驱动太旧会报 CUDA error。用 nvidia-smi 看驱动支持的最高 CUDA，用 torch.version.cuda 看 PyTorch 绑定的版本。

Question 3

多 GPU 训练有哪些方式？

Accepted Answer

主要有数据并行和模型并行。数据并行最常用：每张卡放一份完整模型、各处理一部分 batch，再同步梯度——首选 DistributedDataParallel（每进程一卡，通信用 all-reduce，扩展性好），不推荐已较慢的 DataParallel（单进程多线程、主卡瓶颈）。模型放不下单卡时用模型/流水线并行或 FSDP/ZeRO 分片参数。

Question 4

cuDNN 是什么？

Accepted Answer

cuDNN 是 NVIDIA 面向深度学习的 GPU 加速库，为卷积、池化、归一化、RNN、注意力等常见算子提供高度优化的实现。PyTorch 卷积等算子底层就调用它。设 torch.backends.cudnn.benchmark=True 会让它在输入尺寸固定时自动搜索最快卷积算法（首批迭代略慢、之后更快）；尺寸频繁变化时反而不划算，且会牺牲一点可复现性。

什么是 CUDA？它与 PyTorch 有何关系？

核心要点

标准回答

常见误区

追问

延伸学习