传统数据中心互联的挑战
AI扩展极其复杂,训练和推理的新技术不断对数据中心提出更高要求。虽然数据中心能力快速扩展,但其基础设施受到基本物理限制的影响,这些限制对算法和模型没有影响。电力供应、冷却能力和空间限制限制了AI工厂的物理占地面积。
为了持续增长,需要建设新的数据中心,而远距离连接成为将这些资源汇集在一起以协同处理单个训练或分解推理工作负载的关键因素。
传统上,使用基于"现成"商用硅片的长距离以太网连接数据中心时,主要目标是确保数据成功到达目的地。由于距离可能很长且延迟很高,拥塞的可能性也很高,其影响可能极为严重。
为了缓解这一挑战并防止数据包丢失,现成的以太网供应商创建了采用深度数据包缓冲器的解决方案,能够吸收大量的网络流量突发。虽然这些深度缓冲交换机是长途服务提供商和电信公司的解决方案,但它们给AI带来了问题。
特别是,具有深度缓冲的交换机本身就会遭受更高的延迟。此外,当缓冲区开始变满时,它必须"排空"。对于AI工作负载,这种情况是不可预测的,会导致大量抖动或数据传递的差异。这种减震技术带来的高延迟和不可预测性对于训练和分解推理性能来说是有问题的,这些工作负载本质上是同步的,需要网络提供可预测的性能。
什么是跨规模网络?
跨规模网络是一种新型AI计算结构连接类别,可被视为与现有纵向扩展和横向扩展连接选项正交的新维度。通过用于跨规模网络的Spectrum-XGS以太网,可以将不同规模和距离的多个数据中心统一为一个大型AI工厂。网络首次能够为跨地理分离数据中心的大规模单作业AI训练和推理提供所需性能。
图1. AI所需的三种网络类型:纵向扩展、横向扩展和跨规模
Spectrum-XGS以太网如何实现跨规模网络?
Spectrum-XGS以太网是某中心Spectrum-X以太网平台的新技术补充。它基于相同的Spectrum-X以太网交换机和ConnectX-8 SuperNICs硬件组合,并利用用于数据中心内横向扩展连接的相同软件和库堆栈。
通过Spectrum-XGS以太网,连接是在长距离(超过500米)的AI工厂之间进行的。这可能意味着园区内建筑物之间的连接,或者跨越城市甚至州和国家的数十或数百英里的连接。为了使跨规模连接可行,负责确保高有效带宽和性能隔离的算法必须发展。
距离感知算法在跨规模网络中的作用
长距离传输数据的挑战之一是延迟增加的影响——即使是以光的形式通过光纤传输的数据也是如此。数据以每米5纳秒的速率在玻璃 strands 中传播。这意味着行进1公里需要5微秒。这些数字在绝对意义上可能看起来很小,但对于GPU到GPU的通信,每一微秒都很重要。
Spectrum-XGS以太网具有改进的基于遥测的拥塞控制和自适应路由算法,这些算法围绕通信设备之间的距离进行了优化。每当建立连接时,网络都会记录两个设备是否在数据中心内。
这有助于交换机了解自适应路由负载平衡的最佳方法,并通知SuperNIC处理拥塞控制的注入速率。在网络级别,这使Spectrum-XGS以太网能够整体处理通信而不会产生额外延迟。
Spectrum-XGS以太网技术对跨规模网络的一些关键优势包括:
-
集成统一的网络架构:Spectrum-X以太网横向扩展和Spectrum-XGS以太网跨规模都基于相同的硬件、软件和库。这导致了一种统一的工作负载管理和网络运营方法,这是现成以太网无法实现的。
-
端到端基于遥测的拥塞控制:统一架构还实现了全局网络可见性方法。通过来自数据中心内外的全面遥测数据,可以处理基于遥测的拥塞管理,而无需深度缓冲交换。
-
智能自动调整负载平衡:Spectrum-X以太网AI结构既具有距离感知能力,又具有某中心集合通信库感知能力,能够考虑和补偿可能因站点而异的网络流量模式,并动态调整阈值和限制以确保最高性能。
-
最小化跨规模工作负载的延迟:Spectrum-XGS以太网经过调整可提供可预测的结果。这使网络能够考虑和补偿长距离传输的数据流,减轻任何进一步的延迟损失,而不会因深度缓冲引入任何抖动风险。
-
弹性跨规模容量:由于相同的硬件可用于横向扩展和跨规模,网络资源可以重新分配以支持数据中心内或数据中心间的流量。现成的浅缓冲以太网交换机不能重新用于长途连接。
Spectrum-XGS以太网的性能优势
为了展示Spectrum-XGS以太网对跨规模性能的影响,某中心工程师在10公里距离的多个站点上运行了NCCL原语,并将结果与现成以太网进行了比较。结果(如下图2所示)非常显著:
图2. 与现成以太网相比,Spectrum-XGS以太网将性能提高高达1.9倍
与现成以太网相比,Spectrum-XGS以太网提供高达1.9倍的NCCL全归约带宽。最大的加速发生在较大的消息大小上,这在AI训练工作负载中最常见。这些对NCCL性能的改进转化为AI应用程序更快的作业完成时间。
跨规模网络如何提高AI工厂的投资回报率?
Spectrum-XGS以太网增强了AI基础设施的可替代性。通过引入一种使数据中心能够在任何距离上通信而不会降低性能的技术,Spectrum-XGS以太网创建了在横向扩展和跨规模网络之间共享的通用架构。基于Spectrum-XGS以太网构建的以太网数据中心可以轻松组合在一起作为一个整体运行,无论距离远近。
基于Spectrum-XGS构建的以太网数据中心可以无缝组合,作为单个系统运行,无论它们相距多远。这使得关键任务AI基础设施能够汇集资源,并为高级AI工作负载持续提供价值。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码
