英伟达推出基础上下文内存扩展基础设施

为了更好地了解英伟达基础KV缓存扩展基础设施——ICMSP(推理上下文内存存储平台),我们向英伟达询问了关于Vera Rubin Pod机架的问题,整理出ICMSP方案的初步概况。

上方图像截取自黄仁勋在2026年CES演讲中约1小时20分钟处,展示了Vera Rubin SuperPod。右侧两个机架(圆圈标记)在图形下半部分被放大显示。最右侧的机架是用于Pod间网络连接的网络交换机组。左侧的BlueField-4(BF4)机架包含ICMSP存储柜,安装在一对Spectrum-X以太网交换机下方。英伟达技术博客表示,ICMSP存储延迟敏感、可重复使用的推理上下文,并将其预置以提高GPU利用率。

需要注意的是,一个Vera Rubin计算托盘包含2个Vera CPU、4个Rubin GPU、4个ConnectX-9 Spectrum-X超级网卡(提供可预测的低延迟和高带宽RDMA连接),以及一个BlueField-4(BF4)DPU来处理存储和安全。该DPU同样包含ConnectX-9技术。

英伟达告诉我们,BF4机架在Spectrum-X交换机下方包含16个存储柜。每个存储柜包括4个BlueField-4,总共64个BF4。黄仁勋在演讲中表示,每个BlueField-4后面有150TB的上下文内存。总计为16×(4×150)= 9,600TB。

英伟达表示,一个Vera Rubin SuperPod中有16个NVL72 GPU机架,每个机架容纳72个Rubin GPU,总计1,152个Rubin GPU。英伟达告诉我们:"推理上下文内存存储基础设施可为每个GPU支持最多16TB。"

换句话说,该基础设施可以支持1,152×16 = 18,432TB的上下文内存。我们了解到:"存储基础设施的唯一目的是服务推理上下文内存。"它不做其他任何事情。

黄仁勋表示,单个ICMSP存储柜包含4个BF4,每个BF4后面有150TB的NVMe SSD容量。当客户购买Vera Rubin SuperPod时,谁提供存储柜?英伟达告诉我们:"Vera Rubin Pod的存储基础设施是由我们的存储合作伙伴基于英伟达参考设计进行设计、构建和交付的。"

ICMSP是G3.5层,在Pod内机架G3层和Pod外G4层之间架起桥梁。英伟达技术博客表示:"像英伟达Dynamo这样的推理框架使用其KV块管理器与英伟达推理传输库(NIXL)协同工作,编排推理上下文在内存和存储层之间的移动,使用ICMS作为KV缓存的上下文内存层。这些框架中的KV管理器预置KV块,在解码阶段之前将其从ICMS引入G2或G1内存。"

我们了解到:"当与运行KV I/O平面的英伟达BlueField-4处理器结合使用时,系统高效地终止NVMe-oF和对象/RDMA协议。"

英伟达博客表示:"在推理层,英伟达Dynamo和NIXL管理预填充、解码和KV缓存,同时协调对共享上下文的访问。在此基础上,使用英伟达Grove的拓扑感知编排层在机架间放置工作负载,具有KV局部性感知能力,使工作负载在节点间移动时仍能继续重用上下文。"

"在计算节点级别,KV分层跨越GPU HBM、主机内存、本地SSD、ICMS和网络存储,为编排器提供容量和延迟目标的连续体来放置上下文。将这一切连接在一起,Spectrum-X以太网将Rubin计算节点与BlueField-4 ICMS目标节点连接,提供持续低延迟和高效网络,将闪存支持的上下文内存集成到服务训练和推理的同一AI优化结构中。"

我们理解ICMSP存储柜是JBOF(Just a Bunch of Flash)。控制和管理它们的软件关注为在Vera Rubin SuperPod中一个或多个GPU上运行的AI工作负载提供KV缓存"记录"(即键值对)存储。这些使用GPU的高带宽内存(HBM)和CPU的DRAM在2层方案中保存上下文内存,这些数据将通过加载和存储指令访问,而不是存储语义。我们理解,需要某种专门的FTL(闪存转换层)软件/固件,将KV缓存内存寻址转换为ICMSP提供的3.5 KV缓存层中NVMe SSD基于存储的寻址。

英伟达博客表示:"英伟达DOCA框架引入了KV通信和存储层,将上下文缓存作为KV管理、共享和放置的一流资源,利用KV块和推理模式的独特属性。DOCA接口推理框架,BlueField-4高效地在底层闪存介质之间传输KV缓存。"

KV缓存专用存储柜需要做好一件事,即保存低延迟、高带宽缓存数据,这不涉及提供基于存储的数据服务,如快照、复制、数据缩减等。然而,许多存储供应商正在与英伟达在其ICMSP工作中合作:在黄仁勋的ICMSP演讲中展示了Cloudian、DDN、戴尔、HPE、日立Vantara、IBM、Nutanix、Pure Storage、VAST Data和WEKA的标志。

英伟达指出:"通过利用标准NVMe和NVMe-oF传输,包括NVMe KV扩展,ICMS在为KV缓存提供专门性能的同时,保持与标准存储基础设施的互操作性。"

他们的存储产品将连接到ICMSP存储柜,为其中的数据提供数据服务,如通过Pod外网络链路以较慢速度访问的KV缓存数据存储的进一步分层——上图中的G4层。英伟达技术博客表示:"随着大部分延迟敏感的临时KV缓存现在从G3.5层提供服务,持久的G4对象和文件存储可以为真正需要长期持久化的内容保留。这包括非活动多轮KV状态、查询历史、日志和多轮推理的其他工件,可能在后续会话中被调用。"

英伟达表示:"DOCA框架支持更广泛编排的开放接口,为存储合作伙伴提供灵活性,将其推理解决方案扩展到覆盖G3.5上下文层。"

我们注意到VAST Data已将其软件移植到BlueField-3处理器,其Ceres数据存储柜具有BF3硬件控制器。毫无疑问,我们将看到Ceres的BF4版本。

我们是否会看到上述其他存储供应商中的部分或全部将其存储软件移植到BF4?这是一个有趣的问题——我们还没有答案。

附注

我们认为ICMSP存储柜中使用的SSD出于速度考虑很可能是PCIe Gen 5。

可以在此处阅读关于英伟达ICMSP的信息丰富的博客。它指出英伟达的Dynamo软件提供KV块管理。这包括:"原生支持从GPU内存中驱逐KV缓存,将其卸载到CPU内存或外部存储,并稍后检索。"博客作者补充道:"其中一个关键部分是名为NIXL的新异步传输库,它允许KV缓存移动到内存层次结构中的任何位置——HBM、Grace或Vera CPU内存,或完全离架存储——而不中断正在进行的GPU计算。"

英伟达KV缓存分层方案中的G3层是Hammerspace所称的零层。

Q&A

Q1:ICMSP是什么?它的主要功能是什么?

A:ICMSP是英伟达的推理上下文内存存储平台,它是一个G3.5层,存储延迟敏感、可重复使用的推理上下文,并将其预置以提高GPU利用率。它的唯一目的是服务推理上下文内存,为AI工作负载提供KV缓存存储。

Q2:Vera Rubin SuperPod的存储容量有多大?

A:一个Vera Rubin SuperPod包含1,152个Rubin GPU,ICMSP基础设施可为每个GPU支持最多16TB,总计可支持18,432TB的上下文内存。单个BF4机架包含9,600TB的存储容量。

Q3:英伟达如何管理KV缓存在不同存储层之间的移动?

A:英伟达使用Dynamo推理框架和NIXL异步传输库来管理KV缓存。这些工具可以让KV缓存在内存层次结构中移动——从GPU HBM到CPU内存再到外部存储,而不中断正在进行的GPU计算。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

康迪科技携核心电动产品亮相AIMExpo,渠道拓展再提速

近日,北美最具影响力的动力运动行业专业展会AIMExpo(American International Motorcycle Expo)在美国加利福尼亚州阿纳海姆会展中心盛大举办。据「TMT星球」了解,作为北美动力运动领域新品发布、渠道拓展与行业交流的核心平台&…

特朗普持续不断的威胁,让丹麦首相忍无可忍

荷兰主流媒体《人民报》近日在其网站刊登分析文章认为,美国总统特朗普正把北约带到“以内部胁迫外交和怪诞场景为标志的未知之域”。 文章摘编如下:特朗普声称要得到格陵兰岛,而这是美国坚定盟友之一丹麦的自治领土。 他的所作所为已不仅仅…

Python中Optional类型的作用解析

这行代码是在定义 __init__ 方法的参数,让我详细解释一下: 代码作用 log_file: Optional[str] None这行代码定义了一个名为 log_file 的参数,它有两个特点: 1. 默认值为 NoneNone如果没有提供这个参数,它会自动设置为…

Nodejs和vue框架的短剧推荐系统设计与实现--论文

目录 摘要 关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 摘要 随着短视频和网络剧的快速发展,用户对个性化推荐系统的需求日益增长。本文基于Node.js和Vue框架设计并…

消费增值模式:1200万用户主动参与的秘诀

在电商获客成本持续攀升的今天,一个平台如何能不靠烧钱补贴,就吸引超过1200万用户主动参与?提供的答案值得每个商家深思。一、直面商家三大核心痛点当前实体和线上商家普遍面临:流量瓶颈:传统平台流量见顶,…

免费喝出2000万沙棘汁逆袭秘诀

近期,行业内一个沙棘汁品牌因其独特的用户参与模式,在较短时间内实现了显著的市场增长。该案例常被概括为"免费喝",但其背后蕴含着一套系统性的用户参与与市场扩展逻辑。在当前的商业环境下,用户触达成本持续上升&#…

Python文件读取代码中strip()的作用

这行代码 line.strip() 的作用是: 主要功能 去除字符串 line 两端的空白字符。 具体会去除的字符包括: 空格 (space, )换行符 (newline, \n)回车符 (carriage return, \r)制表符 (tab, \t)其他空白字符(如垂直制表符等) 在这个具…

Nodejs和vue框架的社区外来务工人员管理系统数据分析可视化大屏系统

目录社区外来务工人员管理系统数据分析可视化大屏系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!社区外来务工人员管理系统数据分析可视化大屏系统摘要 该系统基于Node.js…

特朗普:必须拥有整个格陵兰岛

据央视新闻消息,记者当地时间1月8日获悉,美国总统特朗普表示,美国必须“拥有”整个格陵兰,而不仅仅是依据现有条约在当地行使军事和防务权利。 特朗普称,所有权本身具有无法通过租赁或条约获得的战略价值。 据悉&…

2026企业微信社群运营工具推荐:微盛·企微管家功能全解析

企业微信社群运营的三大难题与解决路径 2025年,企业微信社群数量较去年激增53%,但据行业调研,80%企业正面临三大核心挑战:群活跃度不足导致用户流失、转化链路断裂难以追踪、人工运营成本同比上涨40%且响应效率下降28%。这些问题的…

一篇说清!这款网课软件好用在哪?

新年开新课,选对网课软件太关键了❗️给各位老师安利魔果云课,直播、录播、作业批改、课程防护全搞定,不用来回切换软件,教学效率直接拉满~🎬直播课:流畅稳定,互动感拉满依托稳定的云…

真正能把精益生产跑起来的生产管理系统,至少要满足这几个条件

你可能也遇到过这样的情况:企业喊着要做精益生产,挂了看板、画了流程图、培训了标准作业。刚开始还热闹,大家都按流程做,可没过多久,你会发现现场开始乱,数据开始不准,班组长忙得团团转&#xf…

ArcGIS Pro 从入门到实战基础篇(15):查询定位

在 GIS 数据管理与空间分析过程中,快速查询并定位要素是一项非常基础且高频的操作。 通过查询条件,用户可以在地图中迅速找到目标对象,提高数据检查、编辑和分析的效率。 精确匹配查询 现在有一个 POI 数据,想从其中找到一个名…

flask个人博客数据可视化分析系统_

目录 系统概述核心功能技术实现应用价值部署与扩展 关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 系统概述 Flask个人博客数据可视化分析系统是一个基于Python Flask框架开发的轻…

Meta成立新部门专攻AI基础设施建设

Meta平台公司正式推出名为Meta Compute的新基础设施部门,专门负责监督其激进的人工智能数据中心建设计划。据路透社报道,Meta计划部署新的基础设施,这些设施在本十年内将消耗数十千兆瓦的电力,长期来看规模将扩展到数百千兆瓦。这…

主流的开源代码审计工具(干货分享)

一、静态代码分析工具(SAST) 1. ​SonarQube​ ​功能​:支持25语言(Java/Python/PHP等),检测代码异味、安全漏洞、重复代码,集成CI/CD管道,提供质量门禁。​亮点​:可视…

从 Workflow 到 Agent 模式!衡石多智能体协同架构,重新定义智能 BI 底层逻辑

在企业数字化转型进入深水区的今天,商业智能(BI)已从“数据可视化工具”升级为“决策核心引擎”。然而,传统BI依赖的Workflow(工作流)模式,在复杂业务场景下逐渐暴露流程僵化、响应滞后、依赖人…

主流的开源代码审计工具(干货分享)零基础入门到精通,收藏这篇就够了

一、静态代码分析工具(SAST) 1. ​SonarQube​ ​功能​:支持25语言(Java/Python/PHP等),检测代码异味、安全漏洞、重复代码,集成CI/CD管道,提供质量门禁。​亮点​:可…

Anthropic发布Cowork工具,让Claude无需编程技能

周一,Anthropic宣布推出名为Cowork的新工具,这是一个更易于访问的Claude Code版本。该工具内置于Claude桌面应用中,允许用户指定特定文件夹,Claude可以读取或修改其中的文件,并通过标准聊天界面接收进一步指令。其效果…

flask基于python的江西景区可视化管理系统的设计与开发-

目录摘要关键词关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 该系统基于Python的Flask框架开发,结合Web前端技术、数据库管理及可视化工具,构建了一套…