NVLink(NVLink 高速互联)

NVLink 就是把多张显卡用超高速专线直连,让它们共享内存、传数据比走主板 PCIe 槽快十倍以上

亦作、亦称:NVLink 高速互联 · GPU高速互联 · 显卡互联总线 · NVLink Network

NVLink 是 NVIDIA 的专有高速 GPU 互联技术,带宽从 2016 年的 160 GB/s 一路进化到 2026 年机架级 260 TB/s,是现代超大规模 AI 训练集群的核心硬件基础。它让多 GPU 突破 PCIe 瓶颈,实现近乎统一的共享内存空间与极低延迟通信。

概述

NVLink 是 NVIDIA 为打破 PCIe 带宽瓶颈而设计的高速串行互联技术。

  • 核心目标:在同一节点或机架内的 GPU 之间(及 GPU-CPU 之间)提供极高带宽、低延迟的直接通信通道
  • 对比 PCIe:PCIe 4.0 x16 双向带宽约 64 GB/s,NVLink 5.0 单 GPU 已达 1,800 GB/s,高出约 28 倍
  • 功能扩展:支持统一共享内存(Unified Memory)缓存一致性(Cache Coherence),使 GPU 集合可呈现为单一逻辑设备
  • 应用场景:大规模 AI 训练、推理、HPC(高性能计算)集群

工作原理

NVLink 通过物理链路(Lane)与协议层共同实现高带宽通信。

  • 物理层:采用高速串行信令(NVHS),每条 Lane 以极高 GT/s 速率传输,多条 Lane 并联为一个 NVLink 链路
  • 链路聚合:单 GPU 可集成多条 NVLink(如 H100 有 18 条 NVLink 4.0),所有链路带宽叠加
  • 拓扑灵活:支持点对点直连与通过 NVSwitch 芯片构成全互联(All-to-All Mesh)网络
  • 共享内存:GPU 通过 NVLink 访问对端 HBM,OS 层面呈现统一地址空间,无需显式数据拷贝
  • 缓存一致性:协议保证多 GPU 间数据视图一致,降低编程复杂度

版本演进脉络

NVLink 随 NVIDIA GPU 架构逐代升级,带宽持续翻倍。

  • 2016 年(NVLink 1.0 / Pascal P100):每 GPU 4 条链路,总带宽 160 GB/s
  • 2017 年(NVLink 2.0 / Volta V100):每 GPU 6 条链路,总带宽 300 GB/s;首次支持 CPU-GPU 互联(IBM POWER9)
  • 2020 年(NVLink 3.0 / Ampere A100):每 GPU 12 条链路,总带宽 600 GB/s
  • 2022 年(NVLink 4.0 / Hopper H100):每 GPU 18 条链路,总带宽 900 GB/s;引入 NVLink Network 机架级互联
  • 2024 年(NVLink 5.0 / Blackwell B200):每 GPU 18 条链路,总带宽 1,800 GB/s(1.8 TB/s)
  • 2026 年(NVLink 6.0 / Rubin):单 GPU 3,600 GB/s,GB200 NVL72 机架级达 260 TB/s

应用场景

NVLink 主要服务于需要高 GPU 间通信带宽的工作负载。

  • 大模型训练:支持张量并行(Tensor Parallelism)流水线并行(Pipeline Parallelism),减少通信瓶颈
  • 推理加速:多 GPU 共享 KV Cache,支持更长上下文窗口,降低显存压力
  • HPC 科学计算:分子动力学、气候模拟等需要大规模 GPU 协作的计算任务
  • AI 超级计算机:Summit、Sierra 等超算以及 DGX SuperPOD 均采用 NVLink 构建节点内高速互联

与相邻概念区别

NVLink 常被与其他互联技术混淆,需注意其适用层级。

  • NVLink vs PCIe:PCIe 是通用总线,带宽低、延迟高;NVLink 是 NVIDIA 专有,带宽高出数十倍,但仅适用于节点内或 NVLink Network 机架内
  • NVLink vs InfiniBand / RoCE:InfiniBand/RoCE 是跨节点网络互联(节点间),NVLink 是节点内(或机架内)互联;两者分工不同,大型集群通常同时使用
  • NVLink vs NVSwitch:NVSwitch 是配合 NVLink 构建全互联拓扑的交换芯片,二者是协同关系而非替代关系
  • NVLink vs AMD Infinity Fabric:AMD 的 Infinity Fabric 是类似定位的 GPU 互联技术,但生态与带宽规格不同

局限与误区

NVLink 并非万能,使用时需了解其边界。

  • 厂商锁定:NVLink 是 NVIDIA 专有协议,不兼容 AMD、Intel GPU,生态绑定风险高
  • 节点内限制:传统 NVLink 仅用于同一服务器内的 GPU 互联,跨机架通信仍需 InfiniBand 等网络
  • 成本高昂:NVSwitch 芯片和 NVLink 线缆大幅提升系统成本,仅适合数据中心级部署
  • 误区:NVLink 不等于网络:NVLink 不是以太网或 IP 协议,不能直接用于广域网或互联网通信
  • 软件适配:充分利用 NVLink 特性(如统一内存)需要框架(PyTorch、JAX 等)与驱动配合,并非自动透明

生态与配套技术

NVLink 已发展为 NVIDIA 完整互联生态的核心组件。

  • NVSwitch:2018 年随 Volta 引入,可将 8 块(或更多)GPU 构成无阻塞全互联拓扑
  • NVLink Network(NVLink 4.0+):2022 年起支持机架级互联,GB200 NVL72 可将 72 张 GPU 组成单一互联域
  • NCCL(NVIDIA Collective Communications Library):专为 NVLink 拓扑优化的集合通信库,All-Reduce 等操作自动利用最优路径
  • cuDSA / GPUDirect:结合 NVLink 实现 GPU-GPU、GPU-存储之间的零拷贝直接数据传输
  • 未来展望:NVLink 6.0(Rubin 平台)进一步将机架级带宽推至 260 TB/s,持续引领 AI 基础设施演进

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「NVLink 就是把多张显卡用超高速专线直连,让它们共享内存、传数据比走主板 PCIe 槽快十倍以上」
  • 「NVLink 不是网络协议,是板卡级或机架级的物理互联,不要和 InfiniBand 或 RoCE 混为一谈」
  • 「有了 NVLink,100 张 H100 可以当一张超大虚拟 GPU 用,做模型并行时几乎感觉不到卡间通信延迟」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    AI 数据中心基础设施:从 GPU 集群到液冷供电

    AI 大模型训练和推理对数据中心提出了前所未有的基础设施要求。本文系统讲解 AI 数据中心的完整基础设施体系:从 GPU 集群架构到高速互联网络,从液冷散热到供电系统,从存储架构到物理安全,帮助你理解支撑大模型运行的底层物理基础设施。

  2. 2

    AI 芯片地缘政治:从中美博弈到全球供应链重构

    AI 芯片已成为 21 世纪最重要的战略资源。本文系统分析中美 AI 芯片博弈的全景:出口管制政策演变、英伟达的产品策略、国产芯片的突围路径、以及全球半导体供应链的重构趋势。

  3. 3

    NVIDIA RTX Spark:消费级AI芯片架构与Windows AI代理平台全景解读

    2026年6月1日,NVIDIA CEO黄仁勋在GTC Taipei/COMPUTEX 2026主题演讲中发布RTX Spark超级芯片——这是NVIDIA时隔十余年再次挑战PC处理器领域,将Blackwell GPU与20核Grace CPU集成于单一SoC,支持128GB统一内存和1 petaflop AI算力。本文系统解读RTX Spark的硬件架构、与微软合作的AI代理平台生态、Windows on Arm战略意义,以及对PC行业格局的深远影响。

外部参考

维基百科:查看「NVLink」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。