CES 2026 | 重大更新:NVIDIA DGX Spark开启“云边端”模式

作者:毛烁

算力日益增长的需求与数据搬运效率之间的矛盾,在过去两年尤为尖锐。当开源模型的参数量级迈过 100B(千亿)门槛, MoE(混合专家)架构成为主流,数百万开发者和科研人员尴尬地发现,他们被卡在了“云端太远、本地太窄”的夹缝中。

01个人超算DGX Spark开启“云地穿梭”模式

针对这一问题,几个月之前,NVIDIA推出了一款桌面级的AI超算——NVIDIA DGX Spark,其所搭载的 NVIDIA Grace Blackwell 10 Superchip(下称GB10),是针对这一瓶颈给出的物理层解法。

GB10是高度集成的SoC,其在同一硅基底座上,集成了20个Arm架构CPU核心(10 个Cortex-X925超大核与10个A725能效核),以及一颗Blackwell架构GPU

另外,在 NVIDIA DGX Spark中,其128GB LPDDR5x不被区分为“系统内存”与“显存”。CPU与GPU共享同一物理地址空间,内存位宽达到256-bit,总带宽为 273 GB/s。对计算单元而言,模型参数可以存在一个地方,无需在多个存储层级之间反复复制。

这直接改变了模型推理的运行方式。

在传统工作站上,Zero-Copy更多是种软件层面的优化手段,需要精细控制内存映射和数据生命周期。而在GB10的统一内存架构下,零拷贝成为硬件层面的固有属性。

当一个70B甚至100B级别的Llama-4模型运行在NVIDIA DGX Spark时,模型参数一次写入统一内存。CPU完成分词与前处理后,Blackwell GPU直接对同一地址空间发起计算请求,无需显存换入、换出。

也正因为如此,NVIDIA DGX Spark成为少数能够在桌面尺度上,原生装载并持续运行千亿参数级模型的设备之一。

然而,128GB的内存终究是有物理边界。当本地开发跑全量预训练,或者需要验证更大规模的模型时,就会出现算力缺口。

而NVIDIA此次CES 2026更新的NVIDIA Brev,就可以作为跨“云、端”的环境编排器。

NVIDIABrev的核心功能 Launchables(可启动对象),彻底解决了“在本地能跑,在服务器上跑不通”问题。开发者在DGX Spark上定义GPU资源类型、容器镜像、Git仓库配置,可以被封装为一个Launchable。当本地算力不足时,开发者可以通过NVIDIA Brev将Launchable一键投递到AWS 或Google Cloud 的H100集群上。环境的一致性被严格保证,计算任务实现了从桌面到云端的无缝“热迁移”。

需要指出的是,相关云端服务在不同地区的落地节奏存在差异,在中国市场或将结合 NVIDIA及其生态伙伴的整体规划逐步推进,具体以实际服务形态为准。

此外,在企业级部署场景下,NVIDIABrev给出的并不是“全云化”的策略,而是混合拓扑架构,通过内置的智能路由机制,系统本身成为了一道网关,对不同类型的推理请求进行主动分流。

该留在本地的,绝不外流。涉及财务报表、核心源代码、医疗记录等高敏感数据的请求,会被送回本地的NVIDIA DGX Spark处理,数据始终停留在企业内网之中。

该用云的,毫不犹豫。而对于通用知识问答、复杂逻辑推理这类“吃参数、吃规模”的任务,则直接转发至云端的超大模型,避免本地资源被消耗。

这套机制的价值,在隐私合规与模型能力之间划出了一条清晰的分界线,成为企业接入AI时代的“安全阀”。

02 “双节点”拉起两千亿参数MOE模型

云、端的热迁移,为大模型提供了跨尺度的算力延展能力。不过,对一些开发者而言,真正高频发生的工作仍集中在本地环境中。模型调试、推理路径验证、精度对比、性能剖析等绝大多数都需要在可控、可反复的本地条件下完成。而在这一过程中,模型在节点内的执行效率,依旧是影响开发、迭代速度的关键变量。

长期以来,桌面级或工作站环境运行大模型的主流手段是Int4量化。通过将权重压缩到4-bit,得以在有限显存中把模型“装进去”。

但是,这种方式本质上是存储层的妥协,并非计算路径的优化。

一方面,注意力层、归一化层以及MoE路由中的误差会被放大,推理精度难以稳定;另一方面,Int4不能被Tensor Core直接执行,模型权重在计算前须被反量化回FP16或FP8,这一步引入额外计算,显著增加了显存访问和Cache压力

然而,由于Blackwell架构对FP4精度模型的原生支持硬件直接理解的浮点精度权重便可以4-bit 浮点形式进入Tensor Core,在同一精度域内完成运算,整个计算链路中不再存在反量化阶段。

这种变化带来的收益一方面是存储密度的提升。相较 FP16,FP4可将模型参数体积压缩约70%,这意味着直接改变了系统内部的数据流动方式,更多参数可以常驻显存或更高层级cache,跨GPU、跨节点传输的数据规模同步下降,为激活参数值和中间状态留出了更充裕的空间。

另一方面,是计算吞吐的同步放大。在相同的时钟周期内,Tensor Core能处理更多低精度浮点运算,算术密度提高、访存压力下降,推理延迟随之降低,尤其在小batch、交互式场景中效果更加明显。

以Qwen-235B的本地推理为例,2350亿参数即便在双路高端工作站上,也很难完整承载,更不用说在合理功耗和延迟下进行实时推理。传统方案往往只能通过模型剪枝或牺牲交互性来勉强运行。

而在NVIDIA DGX Spark上,对NVFP4的支持,带来了更高存储密度,使得模型权重进可被系统全面映射,Qwen-235B本身采用MoE架构在推理阶段具备天然的稀疏激活特性每个token实际只会调用少量专家,真正参与计算与访存的参数规模小于模型名义上的参数体量。

两台NVIDIA DGX Spark通过高速互联(NVIDIA DGX Spark可实现200Gbps的高速互连,两台NVIDIA DGX Spark可以使用DAC线缆直接连接,在逻辑上组合为一个拥有256GB 统一内存池的计算节点),就能形成逻辑统一的内存与计算域,专家权重按层级与路由策略分布式加载,避免了传统pipeline并行中频繁而昂贵的跨节点同步。

最终的结果是,Qwen-235B可以被完整映射进统一内存池,并实现连续、可交互的推理响应运行在NVIDIA DGX Spark双节点集群上。

03DGX Spark资源库更新工作流开箱即用

除了个人端,对于企业级用户而言,NVIDIADGX Spark的核心价值在于其在桌面尺度上,打通了“开发环境”与“生产环境”之间长期存在的隔离。

NVIDIA DGX Spark预装的DGX OS,完整承载NVIDIA AI Enterprise(NVAIE)的全栈软件平台。这意味着,开发者在本地进行开发时,工程原生可以运行在与数据中心一致的软件栈之中,并直接延续到生产阶段,无需重复迁移与重构。

具体来说,在AI开发实践中,真正消耗时间的是工程前期的环境配置(Environment Setup)。驱动版本选择、依赖冲突排查、容器编排与硬件适配,通常会占据工程师30%以上的时间成本,成为创新效率的主要阻力。

CES2026上,NVIDIA围绕NVIDIADGX Spark更新资源库——DGX Spark playbooks新增6个playbook和4项重大更新,涵盖最新的NVIDIA Nemotron 3 Nano模型、机器人训练、视觉语言模型等。

针对科研场景通过Nemotron 3 Nano Playbook,研究人员可以在本地沙盒中一键拉起完整的MoE实验环境,用于验证路由算法或进行LoRA微调,全程无需占用云端资源,也等待共享算力队列。

针对多模态应用场景Live VLM WebUI Playbook直接打通底层硬件路径。网络摄像头的视频流通过DMA机制直接进入GPU 显存,视觉语言模型完成实时推理并生成描述,为安防、零售分析等场景提供了开箱即用的底层技术框架。

生命科学计算领域,Parabricks Playbook将原本依赖CPU集群运行的基因测序流程迁移至GPU平台,使分析周期从以“天”为单位,压缩至以“小时”为单位。

04场景深化DGX Spark企业级多维实战

现在,NVIDIA DGX Spark已经真正走向场景一线。

在CES 2026现场展示的Reachy Mini,也让我们看到,NVIDIADGX Spark在具身智能(Embodied AI)领域核心价值所在。

通过线缆直连,NVIDIA DGX Spark可作为机器人的高性能边缘计算节点。本地运行的 Isaac Sim仿真环境和“视觉—语言”模型,帮助机器人实现毫秒级的动作修正和指令响应。同时,边缘本地的部署也规避云端控制不可避免的网络抖动问题,机器人从“按脚本执行”进化为自主、实时交互。

更为关键的是,所有数据能在本地完成闭环处理并即时销毁,从根本上消除了家庭陪护、医疗辅助等高敏感场景中的隐私风险。

对内容创作者而言,NVIDIA DGX Spark 正在演变为一台强大的 Sidecar(边车)计算单元(边车模式的核心是将控制和逻辑分离)

在实际演示中,一台正在进行8K视频剪辑的MacBook Pro,通过局域网插件将高负载的 AI补帧与纹理生成任务(如 Qwen-Image)卸载至DGX Spark 执行。结果极具冲击力:视频生成速度相较本机提升8倍,而主力设备的UI操作依旧流畅,丝毫没有卡顿。

这种 “前台轻量创作、后台重载计算” 的分离式架构,或许能重塑数字内容生产的流水线逻辑。

在企业的实践方面,在JetBrains与IBM 的实际部署案例中,NVIDIA DGX Spark被安置在企业内网,作为私有化的 AI 代码助手服务器运行。

NVIDIADGX Spark在其中提供了接近GitHubCopilot级的代码补全和智能提示体验。但由于是本地的,其完全规避了源代码上传至公有云所带来的合规与泄密风险。对于金融、军工、芯片设计等知识产权高度敏感的行业而言,这种物理隔离(Air-gapped)+强大AI能力,几乎是有关企业拥抱大模型辅助编程为数不多的可行路径。

05 写在最后

这次更新,让我对NVIDIA DGX Spark有了新的改观。现在,我并不认为NVIDIA DGX Spark 是“云的对立面”。恰恰相反,它让云边端的界限不再像以往一样割裂。

如果一定要给它一个技术上的定位,我愿称之为:这是大模型时代一个桌面尺度数据中心级的“前置验证节点”

为什么这么说?NVIDIA DGX Spark的核心能力边界,其实是确保在单机条件下,模型的参数布局、KV Cache和MoE路由逻辑不会因为架构限制被迫改写。这也是它在推理、调试和post-training阶段比传统工作站更有价值的原因。

甚至说,NVIDIA DGX Spark并不适合大规模并行训练,更长于验证工程上到底“值不值得被规模化,模型结构是否合理、上下文长度是否还能继续拉长、专家数量是不是已经越过拐点。

或许也正因为如此,NVIDIA DGX Spark在整个“云—边—端”体系中,呈现出相当明确、且难以被简单替代的位置。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1135987.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

es客户端查询DSL在日志系统中的应用:全面讲解

如何用好ES客户端与DSL,在日志系统中实现高效精准查询 在微服务和云原生架构大行其道的今天,一个中等规模的系统每天产生的日志动辄数GB甚至TB级。传统的“ grep 日志文件”模式早已不堪重负——你不可能登录十几台机器去翻滚动日志,更别提…

WaitMutex -FromMsBuild -architecture=x64”已退出,代码为 6

c 编译时报错:命令“"D:\Program Files\Epic Games\UE_5.6\Engine\Build\BatchFiles\Build.bat" demo_56_cEditor Win64 Development -Project"D:\projcect\ue_3d\demo_56_c\demo_56_c.uproject" -WaitMutex -FromMsBuild -architecturex64”已…

通俗解释nmodbus4在自动化产线中的角色

一条产线的“翻译官”:nmodbus4如何让上位机听懂PLC的语言 在一家智能制造工厂的中央控制室里,工程师小李正盯着大屏上跳动的数据流——温度、压力、电机转速……这些来自几十台设备的信息,最终都汇聚到他开发的一套.NET工控软件中。而连接这…

工业现场声音报警实现:有源蜂鸣器和无源区分手把手教程

工业现场声音报警实现:有源蜂鸣器和无源区分手把手教程从一个“不响的蜂鸣器”说起上周,一位做PLC扩展模块的工程师在群里发问:“我板子上的蜂鸣器怎么就是不响?电压测了有,IO也翻转了,代码没问题……”很快…

Gmail新增Gemini驱动AI功能,智能优先级和摘要来袭

谷歌公司正在对Gmail进行全面改革,将Gemini驱动的人工智能功能深度整合到其旗舰邮件服务中,力图将其转变为"个人、主动的收件箱助手"。今日推出的这些更新代表着谷歌迄今为止最积极推动AI自动化常态化的举措之一,可能会升级与微软公…

【Zabbix 多渠道报警全攻略(附图文教程):钉钉 / 企微 / 飞书 / 邮箱配置,含前置环境搭建(监控项、触发器、脚本与动作创建)、完整配置流程(脚本添加、媒介创建、关联授权)与功能测试】

提示:本文原创作品,良心制作,干货为主,简洁清晰,一看就会 Zabbix钉钉/企微/飞书/邮箱报警一、前置环境1.1 实验环境介绍1.2 创建监控项1.3 创建触发器1.4 创建脚本1.5 创建动作1.6 测试nginx能否重启二、钉钉报警2.1 创…

逻辑回归中的条件概率

这个式子 读作:“在已知 x 的条件下,y1 的概率”。 1) 每个符号分别是什么意思? y:要预测的“标签/结果”。 在二分类里通常 y∈{0,1}。 例:垃圾邮件 y1,正常邮件 y0。 x:输入特征(…

从零实现:搭建ARM64蓝屏调试环境并进行WinDbg分析

手把手搭建ARM64蓝屏调试环境:从零开始用WinDbg定位系统崩溃你有没有遇到过这样的场景?一台搭载骁龙处理器的Windows on ARM笔记本突然蓝屏,重启后只留下一个MEMORY.DMP文件,而你面对这个“黑盒”毫无头绪。更糟的是,网…

DevicePairingFolder.dll文件丢失找不到问题 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

研究发现商业AI模型可完整还原《哈利·波特》原著内容

机器学习模型,特别是商业模型,通常不会公开开发者用于训练的数据集。然而,模型包含哪些内容以及这些材料是否能通过特定提示被提取出来,仍然是具有经济和法律后果的重要问题,更不用说伦理和隐私方面的考量。 Anthropic…

DDACLSys.dll文件丢失找不到问题 免费下载分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

Pspice在OrCAD Capture中的仿真探针使用深入解析

Pspice仿真探针实战指南:如何在OrCAD Capture中精准捕获电路行为你有没有遇到过这样的场景?花了半小时搭好一个Buck电路,信心满满地跑完瞬态仿真,结果打开波形一看——关键节点没监控、电流纹波看不见、效率曲线还得手动算。更糟的…

ddodiag.exe文件丢失找不到问题 免费下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

从零实现AUTOSAR NM报文唤醒的软件配置

AUTOSAR NM报文唤醒:从配置到落地的完整实践指南你有没有遇到过这样的场景?整车钥匙未插入,但某个车门模块却频繁“醒来”,继而耗尽蓄电池;或者遥控解锁时响应迟钝,排查半天才发现是网络管理状态没对齐。这…

UVC协议实现高清视频传输:项目应用详解

UVC协议如何让高清视频“即插即用”?一个嵌入式工程师的实战笔记你有没有遇到过这样的场景:花了几千块买的专业摄像头,插上电脑却还要装一堆驱动;或者在Linux板子上调了三天图像采集程序,结果换到Windows又得重来一遍&…

dll一键修复工具 dll运行库修复工具下载

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

Razer在2026年CES展会推出全息AI伴侣项目

去年Razer展示了Project Ava数字助手,它生活在你的电脑中帮助调整设置或提供游戏建议。但现在在2026年CES展会上,该公司的AI伴侣平台获得了重大升级,同时搬入了新的"住所"。现在,Project Ava不再完全局限于你的PC屏幕&a…

独立IP服务器有哪些常见的应用场景?

独立IP服务器凭借其专属IP地址、高安全性和稳定性,在多个关键业务场景中发挥着重要作用。以下是独立IP服务器的主要应用场景:一、大型企业网站与电商平台独立IP服务器是大型企业官网和电商平台的首选方案。对于日均访问量百万级的企业网站,独…

模拟信号基础知识体系梳理:完整学习路径

模拟信号从入门到实战:一条清晰的技术成长路径 你有没有遇到过这样的情况? 传感器输出的电压明明应该稳定在1.65V,可实测却一直在跳动;心电图信号刚放大就自激振荡,像收音机搜台时的“滋滋”声;或者ADC读数…

Vitis安装与Xilinx USB下载器驱动兼容性完整指南

Vitis 安装后无法识别硬件?彻底解决 Xilinx USB 下载器驱动兼容性问题 你有没有遇到过这样的情况:好不容易把 Vitis 装好,项目也建好了,结果一点击“Program Device”—— 设备管理器显示未知设备,Vivado Hardware M…