什么是NSLB

文章目录

    • 为什么需要NSLB
    • NSLB是如何工作的
    • NSLB的典型应用
    • 不同NSLB技术的对比



AI训练场景下网络传输的数据流数少、流量大,使用传统HASH算法,极易造成负载不均,训练效率降低。为此,华为推出了NSLB(Network Scale Load Balance)网络级负载均衡算法,通过智能调优,实现整网负载均衡,保障网络高吞吐,释放AI时代高算力。


为什么需要NSLB

AI大模型并行计算模式,高性能的最大挑战是负载不均

AI大模型训练相比通用计算需要更多的处理器参与并行计算,业界推出了如下多种并行计算方式:

  • 数据并行(DP,Data Parallelism):通过把训练数据集分为多份,并行训练,减少训练时间。
  • 流水线并行(PP,Pipeline Parallelism):通过把模型的不同层部署到不同的GPU上,减少大模型计算对GPU内存的需求。
  • 张量并行(TP,Tensor Parallelism):当一张GPU卡的内存无法满足大模型计算时,可以将模型切分到不同的GPU卡上,使得每一个GPU上的参数量大大减小,从而容纳更大的模型进行训练。

大模型训练一般会将数据并行、流水线并行、张量并行等多种并行模式混合使用,以充分利用集群的算力。无论是哪种并行模式,多机之间都会涉及AllReduce的集合通信。一个AllReduce任务包含多个点对点的通信,而要完成整个AllReduce任务,所有点对点通信都要成功完成,因此集合通信存在“木桶效应”,即AllReduce的完成时间,由其中最慢的点对点通信时间决定。

根据“木桶效应”,只要有一条链路出现负载不均导致网络拥塞,成为了木桶的短板,那么即使其他链路都畅通无阻,集合通信时间仍然会大幅增加,从而影响训练效率。当前的负载均衡技术基于HASH随机,只能做到流比较多时的一个近似均衡散列,并不能保证所有链路都完美均衡。因此,提升AI大模型训练效率的关键是解决负载不均的问题。

Reduce和AllReduce集合通信特点

AI训练场景流少量大,传统HASH算法容易负载不均

和通用计算相比,AI训练的流量模型特征是“少流”和“大流”。通用计算是短连接,每个服务器的流数量可达数十万条;而AI服务器是长连接,每个GPU上的流数量仅数百条,所以称为“少流”。相比通用计算以KBytes/ MBytes的小流为主,AI服务器的流量以GBytes的大流为主,因而称为“大流”。

传统的ECMP(Equal-Cost Multi-Path)流量均衡机制,是为了应对通用计算的“多流”、“小流”场景创建的,但是在“少流”、“大流”的AI场景流量模型下,就因为ECMP哈希机制,造成链路上流量不均,即有的链路上满吞吐,有的链路上却存在空闲。


传统HASH算法容易负载不均

NSLB是如何工作的

为了解决负载不均的问题,华为推出了NSLB网络级负载均衡算法。NSLB配套NPU时,iMaster NCE站在全局视角,主动获取或解析AI流量通信关系,统一算路下发配置,实现全网链路0冲突。NSLB配套GPU时,网络可主动感知拥塞,并自动切换路径,实现网络负载均衡。


NSLB配套NPU的工作机制

NSLB配套GPU的工作机制

NSLB的典型应用

近年来,AI算法已迈入万亿参数大模型时代,算力需求增长近十万倍。AI大规模计算需要高效协同数万张AI处理器,需要持续优化网络,提高并行计算效率;且由于AI处理器成本高昂,亟需搭建零丢包高吞吐的高性能网络,充分释放AI处理器效率;AI训练主要以大流为主,流数量少,单流通信数据量大,传统网络容易负载不均。而网络性能取决于最慢的那条流,也就是说,在一个周期内只有最慢的流到达后,才能进行下一轮通信。

面对以上挑战,华为星河AI高算效数据中心网络解决方案,是面向智能时代打造的超大规模、超高吞吐、长稳可靠的新型数据中心网络解决方案。该方案凭借独家网络级负载均衡NSLB算法,将训练效率提高20%,充分释放AI算力。

不同NSLB技术的对比

NSLB(Network Scale Load Balance)网络级负载均衡技术在不同技术场景下又可以细分为NSLB-S、NSLB-DP、NSLB-gAR、NSLB-S+等。

  • NSLB-S(Static NSLB)
    NSLB-S是一种静态全网负载均衡技术,指通过Rail Group配置实现交换机本地负载均衡(解决本地冲突)。
    NSLB-S适用于昇腾AI场景和英伟达AI场景。

  • NSLB-DP(Data Plane NSLB)
    NSLB-DP是一种基于数据平面的动态全网负载均衡技术,无需依赖AI调度器。在无AI调度平台的裸算力出租场景,交换机在转发过程中对通信域级流量建模和解析,还原AI流量通信关系,之后通过NCE统一算路并下发网络,实现全局链路无冲突。
    NSLB-DP仅适用于昇腾AI场景,能够通过流量建模和解析,还原AI流量通信关系,实现全局链路无冲突。

  • NSLB-gAR(Graceful Adaptive Routing)
    NSLB-gAR是一种英伟达场景下的动态全网负载均衡技术,全称为“优雅自适应路由”。NSLB-gAR无需依赖NCE控制器,交换机基于Packet Event超时延感知功能,识别拥塞流,并通告远端进行路径切换。
    NSLB-gAR仅适用于英伟达Ring AllReduce场景,能够通过感知网络拥塞点,逐步调整网络路径,避免网络拥塞和性能下降。

  • NSLB-S+(Enhanced Static NSLB)
    NSLB-S+是在NSLB-S基础上,通过精准路由控制,同号卡流量汇聚到相同的Spine(Spine数<=8),实现全局负载均衡。
    NSLB-S+适用于昇腾AI场景和英伟达AI场景。

表1-1 不同NSLB技术的对比

NSLB技术通过不同的实现方式和优化机制,解决了AI训练和推理场景中的网络负载不均衡问题。NSLB-S适用于静态场景,NSLB-DP适用于昇腾AI训练场景,而NSLB-gAR则专注于英伟达AI场景。NSLB-S+在NSLB-S的基础上进行了增强,进一步提升了网络性能。通过选择合适的NSLB技术,可以显著提升AI集群的训练性能和网络资源利用率。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1145481.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

没GPU如何学AI侦测?云端实验室1块钱起步,随用随停

没GPU如何学AI侦测&#xff1f;云端实验室1块钱起步&#xff0c;随用随停 1. 为什么需要云端AI实验室&#xff1f; 对于编程培训班的学员来说&#xff0c;学习AI侦测技术最大的门槛往往是硬件设备。传统方式需要本地配备高性能GPU显卡&#xff0c;但学员电脑配置参差不齐&…

自考必看!10个高效降AIGC工具推荐,轻松过审!

自考必看&#xff01;10个高效降AIGC工具推荐&#xff0c;轻松过审&#xff01; AI降重工具&#xff1a;让论文更自然&#xff0c;让审核更轻松 在自考过程中&#xff0c;论文写作是每位考生必须面对的挑战。随着AI技术的广泛应用&#xff0c;越来越多的论文被检测出AIGC率过高…

什么是NSR

文章目录NSR vs NSFNSR是如何工作的NSR的应用NSR是一种在设备进行主备倒换时&#xff0c;保证数据传输不中断的可靠性技术。它通过将路由信息和转发信息在备用控制板进行备份&#xff0c;从而在设备的主用控制板发生故障并需要调用备用控制板时&#xff0c;因为邻居和拓扑信息不…

什么是NTA

文章目录NTA的重要性NTA的应用NTA与SIEM的区别华为如何帮助您保障网络安全NTA&#xff08;Network Traffic Analysis&#xff0c;网络流量分析&#xff09;提供了一种便捷的网络监控和分析的方法。利用机器学习技术、高级分析和基于规则的检测&#xff0c;监控和分析企业网络上…

没显卡怎么玩AI Agent?预置镜像2块钱体验最新技术

没显卡怎么玩AI Agent&#xff1f;预置镜像2块钱体验最新技术 1. AI Agent是什么&#xff1f;为什么需要GPU&#xff1f; AI Agent&#xff08;人工智能代理&#xff09;就像你的数字助手&#xff0c;它能接收任务、分析环境、执行操作并不断学习优化。想象你有一个24小时待命…

智能侦测模型部署真相:买显卡不如用云端,按需付费真香

智能侦测模型部署真相&#xff1a;买显卡不如用云端&#xff0c;按需付费真香 1. 为什么技术主管都在纠结GPU采购&#xff1f; 作为技术负责人&#xff0c;当你需要部署智能侦测模型&#xff08;如异常行为识别、网络安全监控等AI应用&#xff09;时&#xff0c;第一个难题就…

AI实体侦测API调用指南:零基础3步集成,成本透明

AI实体侦测API调用指南&#xff1a;零基础3步集成&#xff0c;成本透明 引言&#xff1a;为什么开发者需要实体侦测API&#xff1f; 想象一下&#xff0c;你正在开发一款社交类App&#xff0c;用户每天上传数百万张照片。如何快速识别照片中的人物、车辆、宠物等实体对象&…

【obsidian指南】配置obsidian git插件,实现obsidian数据定时同步到github仓库(Mac电脑)

背景 最近学了AI agent应用&#xff0c;想着将自己存储在obsidian上的本地笔记数据让大模型能访问到&#xff0c;于是打算利用obsidian工具 github私有库的方式去实现&#xff0c;之前都是用现成在线知识库&#xff0c;所以记录下这次配置经验。 步骤 以下步骤——默认&am…

B 端表单标签对齐指南:兼顾效率与体验的设计选择

表单是 B 端系统的核心交互组件&#xff0c;而表单标签的对齐方式看似微小&#xff0c;却直接影响用户的填写效率、浏览体验和操作流畅度。在 Ant Design、Element UI 等成熟组件库中&#xff0c;行内标签、顶标签、左标签&#xff08;含文字左对齐、右对齐&#xff09;等样式各…

智能工单优先级系统搭建:3步调用API,成本直降70%

智能工单优先级系统搭建&#xff1a;3步调用API&#xff0c;成本直降70% 引言&#xff1a;为什么你的SaaS公司需要智能工单分级&#xff1f; 作为SaaS公司的技术负责人&#xff0c;你可能每天都会面临这样的困扰&#xff1a;客服团队被海量工单淹没&#xff0c;重要问题被普通…

5大AI行为侦测模型对比:云端GPU 3小时完成选型,成本省80%

5大AI行为侦测模型对比&#xff1a;云端GPU 3小时完成选型&#xff0c;成本省80% 1. 为什么需要云端GPU进行AI行为侦测模型选型&#xff1f; 智慧园区项目中&#xff0c;行为识别是安防系统的核心需求。传统的本地测试方式面临几个典型问题&#xff1a; 硬件限制&#xff1a…

如何利用特价股票投资应对经济衰退风险

如何利用特价股票投资应对经济衰退风险关键词&#xff1a;特价股票、经济衰退、投资策略、风险应对、股票估值、财务分析、市场趋势摘要&#xff1a;本文旨在深入探讨如何利用特价股票投资来应对经济衰退风险。通过对特价股票的概念、核心原理的剖析&#xff0c;详细阐述相关算…

AI+IoT设备监控方案:边缘计算+云端分析,成本优化

AIIoT设备监控方案&#xff1a;边缘计算云端分析&#xff0c;成本优化 引言 作为工厂设备主管&#xff0c;你是否经常面临这样的困扰&#xff1a;设备突然故障导致产线停工&#xff0c;维修成本居高不下&#xff0c;但又担心直接改造产线风险太大&#xff1f;传统的人工巡检和…

AI安全众测平台:云端沙箱环境,白帽子提交漏洞更安全

AI安全众测平台&#xff1a;云端沙箱环境&#xff0c;白帽子提交漏洞更安全 1. 什么是AI安全众测平台 想象一下&#xff0c;你是一家企业的安全负责人&#xff0c;想要邀请白帽子&#xff08;安全研究员&#xff09;来测试系统漏洞&#xff0c;但又担心测试过程会影响正常业务…

AI视频侦测3步入门:免CUDA编译,云端直接跑开源模型

AI视频侦测3步入门&#xff1a;免CUDA编译&#xff0c;云端直接跑开源模型 引言&#xff1a;当社区志愿者遇上AI监控 作为一名社区志愿者&#xff0c;你可能经常需要监督垃圾分类情况。传统的人工巡查不仅耗时耗力&#xff0c;还容易遗漏违规行为。这时候AI视频监控就能大显身…

AI原生应用领域微服务集成的边缘计算融合方案

AI原生应用领域微服务集成的边缘计算融合方案&#xff1a;从痛点到落地的全链路实践 一、引言&#xff1a;当AI原生应用遇到“云瓶颈” 1.1 一个让运维工程师崩溃的场景 凌晨3点&#xff0c;某智能工厂的运维值班群突然炸了&#xff1a;“车间1号摄像头的实时行人检测延迟高达5…

多语言实体识别实战:预置50+语言模型,按需调用

多语言实体识别实战&#xff1a;预置50语言模型&#xff0c;按需调用 引言&#xff1a;为什么企业需要多语言实体识别&#xff1f; 想象你是一家跨境电商的客服主管&#xff0c;每天收到来自法国、日本、巴西用户的邮件&#xff0c;内容混杂着法语、日语、葡萄牙语。传统做法…

揭秘写论文AI工具高阶玩法:6款神器精准控率无压力

90%的学生还在为降重和AI率检测而焦虑&#xff1f;殊不知&#xff0c;真正的“学术高手”早已掌握了一套隐秘且高效的“组合拳”。今天&#xff0c;我将为你揭露那些藏在导师和学霸电脑里的“黑科技”工具&#xff0c;以及他们如何利用信息差&#xff0c;轻松实现论文从“零”到…

2026必备!本科生论文神器TOP8一键生成论文工具测评

2026必备&#xff01;本科生论文神器TOP8一键生成论文工具测评 2026年本科生论文写作工具测评&#xff1a;为何需要这份榜单&#xff1f; 随着高校教育的不断升级&#xff0c;本科生在撰写论文时面临的挑战也愈发复杂。从选题构思到资料收集&#xff0c;再到格式排版与内容润色…

实时交通流量AI分析:云端GPU弹性扩容,1小时起租

实时交通流量AI分析&#xff1a;云端GPU弹性扩容&#xff0c;1小时起租 引言 想象一下&#xff0c;你所在的城市每天早晚高峰都会出现交通拥堵&#xff0c;而交通管理部门需要实时掌握各路段的车流情况来调整信号灯配时。传统方案需要部署大量固定摄像头和服务器&#xff0c;…