什么是NoF+

文章目录

    • 为什么需要NoF+?
    • NoF+与NoF比有哪些优势
    • NoF+的网络架构
    • NoF+的关键技术
    • NoF+的核心组件



全闪存时代背景下,传统的FC(Fibre Channel,网状通道)存储网络已经无法满足全闪存数据中心的要求,NVMe(Non-Volatile Memory express,非易失性内存主机控制器接口规范)存储协议的出现极大提升了存储系统内部的存储吞吐性能、降低了传输时延,NoF(NVMe over Fabric)存储网络应运而生。在多种Fabric技术中,NVMe over RoCE(RDMA over Converged Ethernet)被广大存储厂商所接受,成为业界NoF的主流。华为推出的NoF+存储网络解决方案,相较于标准NoF方案,在性能、可靠性、易用性上均实现了颠覆性改进,是全闪存时代的最佳选择。


为什么需要NoF+?

随着智能时代的到来,各种业务对海量数据的存储和读写需求,催生了新的存储介质(SSD)和存储协议(NVMe),存储性能提升了百倍。存储节点不是独立存在的,多个存储节点之间通过存储网络互连。存储性能提升后,需要一个更快、更高质量的存储网络与之匹配,这张网络就是NVMe over Fabric,即NoF。

NoF将NVMe协议应用到服务器主机前端,作为存储阵列与前端主机连接的通道,可端到端取代SAN网络中的SCSI协议,构建全以太的存储SAN网络,如图1-2所示。


NoF的产生背景

NVMe over Fabric中的“Fabric”,是NVMe的承载网络,这个网络可以是RoCE、FC或TCP。

  • NVMe over FC协议标准为FC-NVMe,FC-NVMe和FC-SCSI同样都基于FCP,IO交互基于Exchange。FC-NVMe基于传统的FC网络,通过升级主机驱动和交换机支持,FC-SCSI和FC-- NVMe能同时运行在同一个FC网络中。FC-NVMe能最大化继承传统的FC网络,复用网络基础设施,基于FC物理网络发挥NVMe新协议的优势。
  • NVMe over TCP基于现有的IP网络,采用TCP协议传输NVMe,在网络基础设施不变的情况下实现了端到端NVMe。虽然NVME over TCP网络性能弱于FC和RoCE,但整体性能通过NVMe得到提升,对比iSCSI仍有大幅度的提升。而且NVME over TCP对网络的要求比较低,具有更强大的兼容性,不需要单独建设无损网络,传统以太网即可支持,因此在不追求高性能的情况下,NVMe over TCP将是未来市场的普遍选择。
  • NVMe over RoCE是NVMe over RDMA的一种,RDMA是承载NoF的原生网络协议,RDMA协议除了RoCE外还包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。其中,基于以太网的RoCE目前已成为RDMA的主流网络承载方式。NVMe over RDMA协议比较简单,直接把NVMe的IO队列映射到RDMA QP(Queue Pair)连接,通过RDMA SEND,RDMA WRITE,RDMA READ三个语义实现IO交互。NVMe over RoCE基于融合以太网的RDMA技术承载NVMe协议。

三种方案相比较,基于以太网的RoCE比FC性能更高(更高的带宽、更低的时延),同时兼具TCP的优势(全以太化、全IP化),因此NVMe over RoCE是NoF最优的承载网络方案,也已成为业界NoF的主流技术。

基于以太网的RoCE在存储性能、带宽方面比FC有显著优势,但替换FC、联接全闪存,标准的NoF(NVMe over RoCE)还需在3个方面加强完善:

  1. 网络性能:零丢包
    网络零丢包是存储网络的基本需求,传统以太网络拥塞易丢包。

  2. 可靠性:秒级主备切换
    存储为了可靠性,会构建多个网络平面,切换时间需<1s。

  3. 易用性:即插即用
    FC存储网络场景单一、配置简单,当前以太网络还需针对存储场景适应性改进。

NoF+与NoF比有哪些优势

基于当下业界主流的标准NoF方案,华为依靠在网络和存储领域的深厚积累,进一步从网络性能、可靠性和易用性这三点都进行提升,基于智能无损网络面向集中式存储场景提出了NoF+解决方案,将数据中心存储网络进一步推向更广阔的发展空间。

  • 网络性能增强:

华为NoF+方案改变了传统以太网静态水线方式,对网络预测性能力进行专项优化,通过样本计算,针对特定场景,基于独创的iLossless智能无损算法进行精准的控制,从而预判业务对网络的诉求,实时感知网络流量模型,动态调整水线,可实现存储网络高吞吐下的零丢包,进一步提升性能。

  • 可靠性增强:

保障业务系统可靠是存储的根基,比如存储的秒级切换功能就是可靠性的关键保障之一,传统以太网缺乏故障主动发现和通知机制,发生故障时链路切换时间长,造成存储业务中断。华为NoF+方案推出智能感知特性,实现了从事后被动响应到主动通知、提前识别拥塞和故障。当一个节点出现故障,业务会以亚秒级响应速度切换,在高性能运行的前提下,也能维持系统的稳定可靠。

  • 易用性增强:

存储场景下传统以太网需要逐点手工配置,操作复杂且易出错。华为NoF+方案实现存储和交换机的智能联动,支持存储设备的即插即用和一键式扩容。业务变更只需在单点配置,即可自动同步到全网,业务发放效率显著提升,增强了在未来建设时的易用性。

华为NoF+方案是业界唯一零丢包的以太网,基于全闪存数据中心和超融合以太网络,通过最新一代OceanStor Dorado全闪存存储系统和CloudEngine数据中心存储网络交换机的联合创新,针对传统专用存储网络,在性能、可靠性、易用性上均实现了颠覆性改进,是全闪存时代存储网络的的最佳选择。

NoF+的网络架构

在数据中心常规组网里面,存储网络只是其中的一部分,集中式存储是一个独立的网络,与业务网络在物理上隔离,如图1-3所示。


数据中心集中式存储网络架构图

  • 业务网络:是指业务服务器对外提供服务通信网络,该网络与外部网络互连互通。
  • 计算网络:是指运行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)数据库的后台服务计算节点所组成的物理网络,使用不同的网卡连接业务网络和存储网络,实现业务网络和存储网络之间物理隔离,避免相互影响。
  • 存储网络:是指计算服务器访问存储数据时使用通信网络,该网络一般是独立的物理网络。为了保证数据高可靠,存储网络支持DC级容灾,支持同城双活存储网络,确保业务系统发生设备故障、甚至单数据中心故障时,业务无感知自动切换,实现RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0。

数据中心为了容灾考虑,需要实现多数据中心互通。同城两个数据中心互为备份,且都处于运行状态。当一个数据中心发生设备故障,甚至数据中心整体故障时,业务自动切换到另一个数据中心,解决了传统灾备中心不能承载业务和业务无法自动切换的问题。提供给用户高级别的数据可靠性以及业务连续性的同时,提高存储系统的资源利用率。

在集中式存储下,DC间同城互联的一般组网如图1-4所示。为了实现同城读写支持NVME over RoCE,需要实现同城无损网络,即需要一套跨DC的无损网络,每个DC部署两台支持智能长距无损的DCI Leaf,中间通过波分设备或者裸光纤直连实现双平面,实现端到端的RoCE无损网络。

DC间同城互联一般组网示意图

NoF+的关键技术

流量控制

流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端来得及接收,防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防,提前预防PFC死锁的发生。

  1. PFC(Priority-based Flow Control,基于优先级的流量控制):是目前应用最广泛的流量控制技术。对于PFC控制的队列,当队列在下游设备发生拥塞时,上游设备会停止发送该队列的流量,从而实现报文的零丢包传输。
  2. PFC死锁检测:通过对PFC死锁进行全程监控,当死锁检测周期内持续收到PFC反压帧时,设备可以通过不响应反压帧的方式去解除PFC死锁现象。
  3. PFC死锁预防:通过识别易造成PFC死锁的业务流,修改队列优先级,改变PFC反压的路径,避免PFC反压帧形成环路,从而预防PFC死锁的发生。

拥塞控制

拥塞控制是指对进入网络的数据总量进行控制,使网络流量保持在可接受水平的一种控制方法。拥塞控制与流量控制的区别在于,流量控制作用于接收者,而拥塞控制作用于网络,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。

  1. ECN(Explicit Congestion Notification,显式拥塞通知):是指流量接收端感知到网络上发生拥塞后,通过协议报文通知流量发送端,使得流量发送端降低报文的发送速率,从而从早期避免拥塞而导致的丢包,实现网络性能的最大利用。
  2. AI ECN(Artificial Intelligence Explicit Congestion Notification):是指通过iLossless智能无损算法,根据现网流量模型进行AI训练,以对网络流量变化进行预测,及时推理出最优的ECN门限,并且支持根据现网流量变化实时调整ECN门限,进行无损队列缓存的精确管控,保障整网的最优性能。同时,AI ECN功能与队列调度技术配合使用时,可以实现网络中TCP流量与RoCEv2流量的混合调度,保障RoCEv2流量无损传输的同时实现低时延和高吞吐,让无损业务达到最优性能。
  3. NPCC(Network-based Proactive Congestion Control):是一种以网络设备为核心的主动拥塞控制技术,可以在网络设备上智能识别设备端口的拥塞状态,主动发送CNP(Congestion Notification Packets,拥塞通知报文)报文,准确控制服务器发送RoCEv2报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速,最终确保数据中心互联这种长距场景中RoCEv2业务的低时延和高吞吐。

iNOF

iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)是指通过对接入主机的快速管控,将智能无损网络应用到存储系统,实现计算和存储网络融合的技术。

存储系统为了存储大量的数据,往往需要管理数量庞大的主机,并且存在新主机陆续接入网络设备的情况。为了让智能无损网络技术更好的服务于存储系统,提出了iNOF技术,通过对接入主机的快速管控,可以第一时间获知新接入的主机,智能的调整智能无损网络的相关配置,并且iNOF技术支持将主机信息通告给存储系统,可以协助存储系统管理主机。

iNOF技术与OceanStor Dorado存储的SNSD(Storage Network Smart Discovery,存储网络智能发现)特性联动,支持即插即用,一键安装建链,简单高效。SNSD开关开启后,主机会感知到该RoCE端口下所有逻辑端口的状态变化,帮助主机根据逻辑端口状态去判断是否自动建立或断开连接。

NoF+的核心组件

CloudEngine数据中心存储网络交换机

CloudEngine数据中心存储网络交换机是华为公司面向数据中心全闪存存储网络推出的新一代高性能、高可靠、低时延、易运维的交换机,不仅支持独创iLossless智能算法,让NVMe运行更高效,全面释放全闪存潜力;同时支持NoF+技术,实现存储网络即插即用,故障快速感知。

CloudEngine数据中心存储网络交换机包含以下型号:
CE16800-X配套J系列和J2系列接口板(CEX-L48YSAJ、CEX-L48YSJ、CEX-L24CQJ、CEX-L36CQJ、CEX-L48CQJ2等)

  • CE8865-SAN-4C
  • CE6885-SAN-56F
  • CE6885-SAN-56F、CE8865-SAN-4C与CE16800-X配合构建智能无损DCN方案,满足全闪存时代存储网络的需求。

OceanStor Dorado全闪存存储系统

OceanStor Dorado 6800/18500/18800 V6高端智能全闪存

OceanStor Dorado 6800/18500/18800 V6存储系统是华为根据存储产品应用现状和存储技术未来发展趋势,针对企业大中型数据中心,推出的新一代全闪存高端存储系统,聚焦于大中型企业核心业务(企业级数据中心、虚拟数据中心以及云数据中心等),能够满足大中型数据中心高性能、高可靠、高效率的业务需求。

OceanStor Dorado采用全新一代的SmartMatrix智能矩阵架构,该架构能实现业界唯一的控制框2坏1业务不中断,控制器8坏7业务不中断,能够满足大中型企业核心业务可靠性的要求。同时OceanStor Dorado由AI智能芯片加持,能够满足数据中心大型数据库OLTP/OLAP、高性能计算(HPC,High-performance Computing)、数字媒体、Internet运营、集中存储、备份、容灾和数据迁移等不同业务应用的需求。

OceanStor Dorado不但能够为数据中心提供性能出色的存储服务。同时,提供各种完善的数据备份和容灾方案,保证数据业务顺利、安全的运行。除此之外,OceanStor Dorado还提供易于使用的管理方式和方便快捷的本地/远程维护方式,大大降低了设备管理和维护的成本。

OceanStor Dorado 6800/18500/18800 V6

OceanStor Dorado 5300/5500/5600 V6中端智能全闪存

OceanStor Dorado 5300/5500/5600 V6存储系统是华为采用专为闪存设计的FlashLink技术,面向企业关键业务打造的新一代全闪存存储产品,能够满足大中型企业用户对大容量数据存储、高速数据存取、高可用性、高利用率、绿色环保和易于使用的要求。

OceanStor Dorado以业界领先的性能、多种效率提升机制为支撑,为用户提供了高性能、全方位的解决方案,使用户投资收益比最大化,能够满足大型数据库OLTP/OLAP、高性能计算、服务器虚拟化和虚拟桌面(VDI,Virtual Desktop Infrastructure)等不同业务应用的需求。

OceanStor Dorado不但能够为企业用户提供高性能、高存储效率的存储服务,而且支持各种先进的数据备份和容灾技术,保证数据业务顺利、安全的运行。除此之外,OceanStor Dorado还提供易于使用的管理方式和方便快捷的本地/远程维护方式,大大降低了设备管理和维护的成本。

OceanStor Dorado 5300/5500/5600 V6


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1145490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

强烈安利!9款AI论文软件测评,研究生毕业论文必备

强烈安利&#xff01;9款AI论文软件测评&#xff0c;研究生毕业论文必备 2026年AI论文工具测评&#xff1a;为何值得一看&#xff1f; 随着人工智能技术的不断进步&#xff0c;AI论文工具逐渐成为研究生群体在撰写毕业论文时的重要辅助工具。然而&#xff0c;面对市场上琳琅满目…

教育领域实体识别:定制化学科知识图谱,精准教学

教育领域实体识别&#xff1a;定制化学科知识图谱&#xff0c;精准教学 引言 在在线教育平台中&#xff0c;智能课件生成是一个非常有价值的功能。想象一下&#xff0c;当老师上传一份历史教材时&#xff0c;系统能自动识别出"秦始皇"、"三国鼎立"等关键…

NPCC(Network-based Proactive Congestion Control)

文章目录为什么需要NPCCNPCC是如何工作的NPCC的应用NPCC&#xff08;Network-based Proactive Congestion Control&#xff09;是一种以网络设备为核心的主动拥塞控制技术&#xff0c;支持在网络设备上智能识别拥塞状态&#xff0c;主动发送CNP拥塞通知报文&#xff0c;准确控制…

Python模块与包管理:从基础到现代工程实践

Python模块与包管理&#xff1a;从基础到现代工程实践 引言&#xff1a;Python模块化设计的哲学 Python语言之所以能在数据科学、Web开发、自动化运维等领域占据主导地位&#xff0c;其优雅的模块化设计功不可没。模块化不仅是一种代码组织方式&#xff0c;更是Python哲学"…

什么是NQA

文章目录为什么需要NQANQA测试例处理机制NQA典型应用网络质量分析NQA&#xff08;Network Quality Analysis&#xff09;是一种实时的网络性能探测和统计技术&#xff0c;可以对响应时间、网络抖动、丢包率等网络指标进行统计。NQA能够实时监视网络服务质量&#xff0c;在网络发…

Midjourney搞定科研论文封面图!3步出刊级作品,拒被审稿人打回

点赞、关注、收藏&#xff0c;不迷路 点赞、关注、收藏&#xff0c;不迷路 搞科研的你&#xff0c;是不是在论文封面图上栽过太多跟头&#xff1f;自己用PPT画的封面又丑又廉价&#xff0c;完全撑不起学术格调&#xff1b;找设计公司定制&#xff0c;不仅收费贵&#xff08;动辄…

prql-book-l10n

PRQL 语言手册的本地化&#x1f389; prql-book-l10n 已发布&#xff01; &#x1f680; 预览翻译&#xff1a;https://projects.localizethedocs.org/prql-book-l10n &#x1f310; Crowdin&#xff1a;https://localizethedocs.crowdin.com/prql-book-l10n &#x1f419; …

DDoS攻击检测新方案:云端AI模型1小时1块,比传统方案快5倍

DDoS攻击检测新方案&#xff1a;云端AI模型1小时1块&#xff0c;比传统方案快5倍 1. 为什么需要AI驱动的DDoS检测&#xff1f; 想象一下&#xff0c;你的网站就像一家热门餐厅。平时客流稳定&#xff0c;但突然有1000个"假顾客"同时涌入占座却不点餐——这就是DDoS…

什么是NSLB

文章目录为什么需要NSLBNSLB是如何工作的NSLB的典型应用不同NSLB技术的对比AI训练场景下网络传输的数据流数少、流量大&#xff0c;使用传统HASH算法&#xff0c;极易造成负载不均&#xff0c;训练效率降低。为此&#xff0c;华为推出了NSLB&#xff08;Network Scale Load Bal…

没GPU如何学AI侦测?云端实验室1块钱起步,随用随停

没GPU如何学AI侦测&#xff1f;云端实验室1块钱起步&#xff0c;随用随停 1. 为什么需要云端AI实验室&#xff1f; 对于编程培训班的学员来说&#xff0c;学习AI侦测技术最大的门槛往往是硬件设备。传统方式需要本地配备高性能GPU显卡&#xff0c;但学员电脑配置参差不齐&…

自考必看!10个高效降AIGC工具推荐,轻松过审!

自考必看&#xff01;10个高效降AIGC工具推荐&#xff0c;轻松过审&#xff01; AI降重工具&#xff1a;让论文更自然&#xff0c;让审核更轻松 在自考过程中&#xff0c;论文写作是每位考生必须面对的挑战。随着AI技术的广泛应用&#xff0c;越来越多的论文被检测出AIGC率过高…

什么是NSR

文章目录NSR vs NSFNSR是如何工作的NSR的应用NSR是一种在设备进行主备倒换时&#xff0c;保证数据传输不中断的可靠性技术。它通过将路由信息和转发信息在备用控制板进行备份&#xff0c;从而在设备的主用控制板发生故障并需要调用备用控制板时&#xff0c;因为邻居和拓扑信息不…

什么是NTA

文章目录NTA的重要性NTA的应用NTA与SIEM的区别华为如何帮助您保障网络安全NTA&#xff08;Network Traffic Analysis&#xff0c;网络流量分析&#xff09;提供了一种便捷的网络监控和分析的方法。利用机器学习技术、高级分析和基于规则的检测&#xff0c;监控和分析企业网络上…

没显卡怎么玩AI Agent?预置镜像2块钱体验最新技术

没显卡怎么玩AI Agent&#xff1f;预置镜像2块钱体验最新技术 1. AI Agent是什么&#xff1f;为什么需要GPU&#xff1f; AI Agent&#xff08;人工智能代理&#xff09;就像你的数字助手&#xff0c;它能接收任务、分析环境、执行操作并不断学习优化。想象你有一个24小时待命…

智能侦测模型部署真相:买显卡不如用云端,按需付费真香

智能侦测模型部署真相&#xff1a;买显卡不如用云端&#xff0c;按需付费真香 1. 为什么技术主管都在纠结GPU采购&#xff1f; 作为技术负责人&#xff0c;当你需要部署智能侦测模型&#xff08;如异常行为识别、网络安全监控等AI应用&#xff09;时&#xff0c;第一个难题就…

AI实体侦测API调用指南:零基础3步集成,成本透明

AI实体侦测API调用指南&#xff1a;零基础3步集成&#xff0c;成本透明 引言&#xff1a;为什么开发者需要实体侦测API&#xff1f; 想象一下&#xff0c;你正在开发一款社交类App&#xff0c;用户每天上传数百万张照片。如何快速识别照片中的人物、车辆、宠物等实体对象&…

【obsidian指南】配置obsidian git插件,实现obsidian数据定时同步到github仓库(Mac电脑)

背景 最近学了AI agent应用&#xff0c;想着将自己存储在obsidian上的本地笔记数据让大模型能访问到&#xff0c;于是打算利用obsidian工具 github私有库的方式去实现&#xff0c;之前都是用现成在线知识库&#xff0c;所以记录下这次配置经验。 步骤 以下步骤——默认&am…

B 端表单标签对齐指南:兼顾效率与体验的设计选择

表单是 B 端系统的核心交互组件&#xff0c;而表单标签的对齐方式看似微小&#xff0c;却直接影响用户的填写效率、浏览体验和操作流畅度。在 Ant Design、Element UI 等成熟组件库中&#xff0c;行内标签、顶标签、左标签&#xff08;含文字左对齐、右对齐&#xff09;等样式各…

智能工单优先级系统搭建:3步调用API,成本直降70%

智能工单优先级系统搭建&#xff1a;3步调用API&#xff0c;成本直降70% 引言&#xff1a;为什么你的SaaS公司需要智能工单分级&#xff1f; 作为SaaS公司的技术负责人&#xff0c;你可能每天都会面临这样的困扰&#xff1a;客服团队被海量工单淹没&#xff0c;重要问题被普通…

5大AI行为侦测模型对比:云端GPU 3小时完成选型,成本省80%

5大AI行为侦测模型对比&#xff1a;云端GPU 3小时完成选型&#xff0c;成本省80% 1. 为什么需要云端GPU进行AI行为侦测模型选型&#xff1f; 智慧园区项目中&#xff0c;行为识别是安防系统的核心需求。传统的本地测试方式面临几个典型问题&#xff1a; 硬件限制&#xff1a…