🌐 集群与互联
Clusters & Interconnect
单机算力有限,万卡集群才是大模型训练的真实战场。NVLink是GPU间高速互联,InfiniBand/RoCE是节点间网络,NVIDIA Spectrum交换机支撑超大规模。Meta的24k GPU集群、xAI的Colossus都是这一层的典型。国产的华为Atlas 900也在追赶。
平台/工具(5项)
GPU互联 (NVLink)
集群网络 (InfiniBand/RoCE)
🌍 海外
InfiniBand
由Mellanox(现NVIDIA)主导的超低延迟高速网络技术。NDR 400Gbps版本提供亚微秒级延迟和RDMA远程直接内存访问。与以太网相比大幅减少GPU通信等待时间,是万卡GPU集群训练的首选...
NVIDIA Spectrum-X
NVIDIA面向AI云推出的以太网网络平台,结合Spectrum-4交换机、BlueField-3 DPU和加速软件,提供自适应路由和拥塞控制。专为多租户AI云环境优化,可将AI工作负载网络性能提升1...
RoCE v2
RDMA over Converged Ethernet第二版,在标准以太网上实现远程直接内存访问,支持400Gbps带宽。相比InfiniBand成本更低且兼容现有以太网基础设施,无需专用交换机和网...