NPCC(Network-based Proactive Congestion Control)

文章目录

    • 为什么需要NPCC
    • NPCC是如何工作的
    • NPCC的应用



NPCC(Network-based Proactive Congestion Control)是一种以网络设备为核心的主动拥塞控制技术,支持在网络设备上智能识别拥塞状态,主动发送CNP拥塞通知报文,准确控制服务器发送RoCEv2报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速。


为什么需要NPCC

目前RoCEv2(RDMA over Converged Ethernet version 2)网络应用最广泛的拥塞控制机制,是在网络设备上发现拥塞后,由网络设备向接收端服务器发送携带拥塞标记的报文,接收端服务器随后向发送端服务器发送CNP拥塞通知报文(Congestion Notification Packets,简称CNP报文),以通知发送端服务器降低发送报文的速率,从而缓解拥塞。

传统的拥塞控制机制

智能无损网络中的AI ECN技术采用的就是上述拥塞控制机制,它仅要求网络设备在报文中打上拥塞标记,其他协议功能在服务器上实现。但当接收端服务器与发送端服务器距离较远时,该机制存在以下问题:

  • 响应慢:发生拥塞的是网络设备,然而对拥塞进行反馈的是接收端,当网络规模较大时,过长的拥塞反馈路径可能让发送端不能及时降速,甚至提前升速导致拥塞加剧;
  • 响应不准确:网络拥塞状态只能通过报文中的拥塞标记获得,接收端生成的CNP报文个数不能准确缓解拥塞。且在拥塞缓解过程中,转发设备仍然会持续进行拥塞标记,很容易造成吞吐过低。

NPCC功能支持在网络设备上智能识别拥塞状态,由网络设备主动向发送端服务器发送CNP报文,使发送端服务器及时降低发送报文的速率。不仅解决了拥塞反馈路径过长的问题,而且可以准确控制发送的CNP报文个数。既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速。但由于启用NPCC功能的网络设备需要自行维护RoCEv2流表、计算CNP报文数目、构造和发送CNP报文,这个过程需要花费的时间相对较长,因此,在两端服务器距离较远的场景中使用NPCC更有收益。


NPCC的拥塞控制机制

NPCC是如何工作的

NPCC工作原理

NPCC的工作原理如上图所示。

  1. 维护RoCEv2流表,获取路径信息。
    开启NPCC功能的网络设备会根据报文的源IP地址、目的IP地址、Dest QP字段和端口索引信息建立和维护RoCEv2流表,以获知RoCEv2流的地址信息和转发路径。

  2. 检测队列拥塞状态,计算CNP报文数目。
    网络设备对端口中开启了NPCC功能的队列的队列长度(即缓存占用量)进行检测,根据队列的拥塞状态智能计算主动发送的CNP报文数目:

  • 队列长度上涨:队列浅时,发送少量CNP报文,防止拥塞状态误判断;队列深时,发送较多的CNP报文,快速缓解队列拥塞,降低转发时延。
  • 队列长度下降:队列浅时,不发送CNP报文,防止过度降速造成吞吐下降;队列深时,发送少量的CNP报文,在尽量保证吞吐和时延性能的情况下缓解队列拥塞。
  • 队列长度突发小抖动:认为出现了微突发场景,此时不发送CNP报文,防止出现过度降速。
  1. 构造CNP报文并转发。
    网络设备根据计算出的CNP报文数目和RoCEv2流表中的地址信息构造CNP报文,并向发送端服务器主动发送CNP报文,服务器收到后降低RoCEv2报文的发送速率。

NPCC的应用

如下图所示,在数据中心互联的长距场景中,DeviceA和DeviceB作为数据中心互联的出口设备,当DeviceA的出端口发生拥塞时,DeviceA会向DC2的接收端服务器发送携带拥塞标记的报文,DC2的接收端服务器随后向DC1的发送端服务器发送CNP报文,DC1的发送端服务器接收到CNP报文后降低发送报文的速率。由于两个数据中心距离很远,消耗时间较长,因此无法达到及时降速的效果。

在DeviceA上开启NPCC功能后,当DeviceA的出端口发生拥塞时,由DeviceA直接向DC1的发送端服务器发送CNP报文,可以达到及时降速,缓解拥塞的效果。


数据中心互联的长距场景


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1145487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python模块与包管理:从基础到现代工程实践

Python模块与包管理:从基础到现代工程实践 引言:Python模块化设计的哲学 Python语言之所以能在数据科学、Web开发、自动化运维等领域占据主导地位,其优雅的模块化设计功不可没。模块化不仅是一种代码组织方式,更是Python哲学"…

什么是NQA

文章目录为什么需要NQANQA测试例处理机制NQA典型应用网络质量分析NQA(Network Quality Analysis)是一种实时的网络性能探测和统计技术,可以对响应时间、网络抖动、丢包率等网络指标进行统计。NQA能够实时监视网络服务质量,在网络发…

Midjourney搞定科研论文封面图!3步出刊级作品,拒被审稿人打回

点赞、关注、收藏,不迷路 点赞、关注、收藏,不迷路 搞科研的你,是不是在论文封面图上栽过太多跟头?自己用PPT画的封面又丑又廉价,完全撑不起学术格调;找设计公司定制,不仅收费贵(动辄…

prql-book-l10n

PRQL 语言手册的本地化🎉 prql-book-l10n 已发布! 🚀 预览翻译:https://projects.localizethedocs.org/prql-book-l10n 🌐 Crowdin:https://localizethedocs.crowdin.com/prql-book-l10n 🐙 …

DDoS攻击检测新方案:云端AI模型1小时1块,比传统方案快5倍

DDoS攻击检测新方案:云端AI模型1小时1块,比传统方案快5倍 1. 为什么需要AI驱动的DDoS检测? 想象一下,你的网站就像一家热门餐厅。平时客流稳定,但突然有1000个"假顾客"同时涌入占座却不点餐——这就是DDoS…

什么是NSLB

文章目录为什么需要NSLBNSLB是如何工作的NSLB的典型应用不同NSLB技术的对比AI训练场景下网络传输的数据流数少、流量大,使用传统HASH算法,极易造成负载不均,训练效率降低。为此,华为推出了NSLB(Network Scale Load Bal…

没GPU如何学AI侦测?云端实验室1块钱起步,随用随停

没GPU如何学AI侦测?云端实验室1块钱起步,随用随停 1. 为什么需要云端AI实验室? 对于编程培训班的学员来说,学习AI侦测技术最大的门槛往往是硬件设备。传统方式需要本地配备高性能GPU显卡,但学员电脑配置参差不齐&…

自考必看!10个高效降AIGC工具推荐,轻松过审!

自考必看!10个高效降AIGC工具推荐,轻松过审! AI降重工具:让论文更自然,让审核更轻松 在自考过程中,论文写作是每位考生必须面对的挑战。随着AI技术的广泛应用,越来越多的论文被检测出AIGC率过高…

什么是NSR

文章目录NSR vs NSFNSR是如何工作的NSR的应用NSR是一种在设备进行主备倒换时,保证数据传输不中断的可靠性技术。它通过将路由信息和转发信息在备用控制板进行备份,从而在设备的主用控制板发生故障并需要调用备用控制板时,因为邻居和拓扑信息不…

什么是NTA

文章目录NTA的重要性NTA的应用NTA与SIEM的区别华为如何帮助您保障网络安全NTA(Network Traffic Analysis,网络流量分析)提供了一种便捷的网络监控和分析的方法。利用机器学习技术、高级分析和基于规则的检测,监控和分析企业网络上…

没显卡怎么玩AI Agent?预置镜像2块钱体验最新技术

没显卡怎么玩AI Agent?预置镜像2块钱体验最新技术 1. AI Agent是什么?为什么需要GPU? AI Agent(人工智能代理)就像你的数字助手,它能接收任务、分析环境、执行操作并不断学习优化。想象你有一个24小时待命…

智能侦测模型部署真相:买显卡不如用云端,按需付费真香

智能侦测模型部署真相:买显卡不如用云端,按需付费真香 1. 为什么技术主管都在纠结GPU采购? 作为技术负责人,当你需要部署智能侦测模型(如异常行为识别、网络安全监控等AI应用)时,第一个难题就…

AI实体侦测API调用指南:零基础3步集成,成本透明

AI实体侦测API调用指南:零基础3步集成,成本透明 引言:为什么开发者需要实体侦测API? 想象一下,你正在开发一款社交类App,用户每天上传数百万张照片。如何快速识别照片中的人物、车辆、宠物等实体对象&…

【obsidian指南】配置obsidian git插件,实现obsidian数据定时同步到github仓库(Mac电脑)

背景 最近学了AI agent应用,想着将自己存储在obsidian上的本地笔记数据让大模型能访问到,于是打算利用obsidian工具 github私有库的方式去实现,之前都是用现成在线知识库,所以记录下这次配置经验。 步骤 以下步骤——默认&am…

B 端表单标签对齐指南:兼顾效率与体验的设计选择

表单是 B 端系统的核心交互组件,而表单标签的对齐方式看似微小,却直接影响用户的填写效率、浏览体验和操作流畅度。在 Ant Design、Element UI 等成熟组件库中,行内标签、顶标签、左标签(含文字左对齐、右对齐)等样式各…

智能工单优先级系统搭建:3步调用API,成本直降70%

智能工单优先级系统搭建:3步调用API,成本直降70% 引言:为什么你的SaaS公司需要智能工单分级? 作为SaaS公司的技术负责人,你可能每天都会面临这样的困扰:客服团队被海量工单淹没,重要问题被普通…

5大AI行为侦测模型对比:云端GPU 3小时完成选型,成本省80%

5大AI行为侦测模型对比:云端GPU 3小时完成选型,成本省80% 1. 为什么需要云端GPU进行AI行为侦测模型选型? 智慧园区项目中,行为识别是安防系统的核心需求。传统的本地测试方式面临几个典型问题: 硬件限制&#xff1a…

如何利用特价股票投资应对经济衰退风险

如何利用特价股票投资应对经济衰退风险关键词:特价股票、经济衰退、投资策略、风险应对、股票估值、财务分析、市场趋势摘要:本文旨在深入探讨如何利用特价股票投资来应对经济衰退风险。通过对特价股票的概念、核心原理的剖析,详细阐述相关算…

AI+IoT设备监控方案:边缘计算+云端分析,成本优化

AIIoT设备监控方案:边缘计算云端分析,成本优化 引言 作为工厂设备主管,你是否经常面临这样的困扰:设备突然故障导致产线停工,维修成本居高不下,但又担心直接改造产线风险太大?传统的人工巡检和…

AI安全众测平台:云端沙箱环境,白帽子提交漏洞更安全

AI安全众测平台:云端沙箱环境,白帽子提交漏洞更安全 1. 什么是AI安全众测平台 想象一下,你是一家企业的安全负责人,想要邀请白帽子(安全研究员)来测试系统漏洞,但又担心测试过程会影响正常业务…