目前,分散在各地的GPU智算集群之间通常没有直接的、实时的相互调用关系来共同训练一个单一的大模型。它们之间的关系更多是独立运作、资源错配或通过更高层级的调度系统进行间接协调,而不是像单个集群内部的GPU那样紧密协同。
这背后的原因和现状可以从以下几个层面来理解:
1. 技术瓶颈:通信延迟是“不可逾越的鸿沟”
训练一个大模型(如GPT-4级别)是一个高度并行且需要频繁交换数据的过程。模型的不同部分被拆分到不同的GPU上,这些GPU需要在毫秒甚至微秒级的时间内同步梯度和参数。
- 集群内部 (Intra-Cluster):在一个智算中心内,GPU之间通过超节点 (SuperPod/SuperNode) 架构连接。这种架构使用NVIDIA的NVLink/NVSwitch或类似的高速互联技术,将多个服务器整合成一个“高带宽域”(HBD)。在这个域内,GPU间的通信带宽可以达到每秒数千GB (TB/s级别),延迟低至百纳秒级别。这使得万卡甚至十万卡集群能像一台超级计算机一样工作。
- 集群之间 (Inter-Cluster):当涉及到跨地域的集群时,连接它们的是广域网 (WAN),主要依赖光纤网络。即使是顶级的数据中心互联,其带宽也远低于NVLink(通常是Tbps级别),而延迟则从几十毫秒到上百毫秒不等,比集群内部高出数万倍。
这个巨大的延迟差距意味着,如果让两个相距遥远的集群共同训练一个模型,通信开销会完全淹没计算收益,导致训练效率急剧下降,甚至无法进行。因此,一个单一的大模型训练任务通常只能部署在一个物理位置集中的、具备超节点架构的大型智算中心内。
2. 当前的现实:资源错配与“假/伪万卡集群”
正如您提供的资料所揭示的,当前存在一种“算力既紧缺又空置”的矛盾现象:
- 真万卡集群稀缺:“真万卡集群”指的是在同一数据中心内,通过超节点技术将一万张GPU整合成一个可协同工作的单一系统。这类集群建设难度大、成本高,全球范围内都屈指可数。
- “假/伪万卡集群”泛滥:
- 假万卡集群:公司声称拥有万张GPU,但这些GPU分散在全国不同的数据中心,每个中心只有几百或几千卡。它们无法协同训练一个超大模型。
- 伪万卡集群:GPU集中在同一数据中心,但被分割用于同时训练多个不同的小模型,而非集中力量训练一个大模型。
在这种情况下,分散的集群之间不存在协同,反而造成了资源的浪费和错配。银行和地方政府投资建设的智算中心,可能因为缺乏客户而空置;而真正需要大规模算力的AI公司,则可能面临算力不足。
3. 集群间的“关系”与未来可能性
尽管不能直接协同训练,但分散的集群之间仍存在几种关系:
- 独立服务不同任务:一个集群可能在训练A公司的大模型,另一个集群在为B公司提供推理服务或微调小模型。
- 云厂商的资源整合:大型云服务商(如阿里云、腾讯云)可能拥有分布在多地的智算中心。它们通过全局资源调度平台,根据客户需求和各集群的负载情况,将任务分配到最合适的集群上执行。但这仍然是任务级别的调度,而非算力级别的融合。
- 联邦学习 (Federated Learning):这是一种特殊的协作模式。在这种模式下,模型的训练是在多个分散的设备或集群上本地进行的,然后只将模型更新(梯度)聚合到中央服务器,而不是共享原始数据。这主要用于隐私保护场景,但训练过程本身并非实时协同。
- 未来的探索方向:业界正在研究如何更高效地利用分散算力,例如通过更智能的调度算法、优化的通信协议或新的分布式训练框架。但要实现跨地域的实时协同训练,除非有革命性的低延迟网络技术突破,否则在可预见的未来都难以实现。
总结
简单来说,目前分散的GPU智算集群就像是一个个独立的“算力孤岛”。它们各自为政,服务于不同的客户和任务。由于跨地域通信的巨大延迟,它们无法像同一个机柜内的GPU那样无缝协作来训练一个大模型。真正的“万亿参数大模型训练”需要的是物理上集中、通过超节点技术整合的“真万卡集群”,而不是地理上分散的GPU总和。当前行业正努力解决资源错配问题,推动算力从“分散闲置”向“集中高效”转变。