【杂谈】-探索 NVIDIA Dynamo 的高性能架构

探索 NVIDIA Dynamo 的高性能架构

文章目录

  • 探索 NVIDIA Dynamo 的高性能架构
    • 1. 大规模人工智能推理的日益严峻的挑战
    • 2. 使用 NVIDIA Dynamo 优化 AI 推理
    • 3. 实际应用和行业影响
    • 4. 竞争优势:Dynamo 与其他方案对比
    • 5. 总结

随着人工智能(AI)技术的迅猛发展,对高效且可扩展的推理解决方案的需求急剧上升。随着企业致力于快速运行模型以进行实时预测,AI 推理的重要性预计将迅速超越训练。这一转变突显了对强大基础架构的需求,以便以最小的延迟处理海量数据。

推理在自动驾驶汽车、欺诈检测和实时医疗诊断等行业中扮演着至关重要的角色。然而,推理也面临着独特的挑战,特别是在扩展以满足视频流、实时数据分析和客户洞察等任务的需求时。传统的人工智能模型难以高效地处理这些高吞吐量任务,常常导致高昂的成本和延迟。随着企业扩展其人工智能能力,他们需要能够管理大量推理请求的解决方案,而不会牺牲性能或增加成本。

NVIDIA Dynamo应运而生。Dynamo 于 2025 年 3 月推出,是一个全新的 AI 框架,旨在应对大规模 AI 推理的挑战。它帮助企业加速推理工作负载,同时保持强大的性能并降低成本。Dynamo 基于 NVIDIA 强大的 GPU 架构构建,并与 CUDA、TensorRT 和 Triton 等工具集成,正在改变企业管理 AI 推理的方式,使各种规模的企业都能更轻松、更高效地管理 AI 推理。

1. 大规模人工智能推理的日益严峻的挑战

AI 推理是利用预先训练的机器学习模型根据真实世界数据进行预测的过程,对于许多实时 AI 应用至关重要。然而,传统系统往往难以应对日益增长的 AI 推理需求,尤其是在自动驾驶汽车、欺诈检测和医疗诊断等领域。

受快速、现场决策需求的驱动,实时 AI 的需求正在快速增长。Forrester 于 2024 年 5 月发布的一份报告发现,67% 的企业将生成式 AI 融入其运营,凸显了实时 AI 的重要性。推理是许多 AI 驱动任务的核心,例如帮助自动驾驶汽车快速决策、检测金融交易中的欺诈行为,以及协助医学诊断(例如分析医学影像)。

尽管需求如此巨大,传统系统仍难以处理如此大规模的任务。其中一个主要问题是 GPU 的利用率不足。例如,许多系统的 GPU 利用率仍然保持在 10% 到 15% 左右,这意味着大量的计算能力未得到充分利用。随着 AI 推理工作负载的增加,内存限制和缓存抖动等额外挑战也随之而来,这些挑战会导致延迟并降低整体性能。

实现低延迟对于实时 AI 应用至关重要,但许多传统系统难以跟上,尤其是在使用云基础架构时。麦肯锡的一份报告显示,70% 的 AI 项目由于数据质量和集成问题而未能实现其目标。这些挑战凸显了对更高效、更可扩展的解决方案的需求;而这正是 NVIDIA Dynamo 的用武之地。

2. 使用 NVIDIA Dynamo 优化 AI 推理

NVIDIA Dynamo 是一个开源模块化框架,用于优化分布式多 GPU 环境中的大规模 AI 推理任务。它旨在解决生成式 AI 和推理模型中的常见挑战,例如 GPU 利用率不足、内存瓶颈以及请求路由效率低下。Dynamo 将硬件感知优化与软件创新相结合来解决这些问题,为高需求 AI 应用提供更高效的解决方案。

Dynamo 的关键特性之一是其分解式服务架构。该方法将计算密集型的预填充阶段(处理上下文)与解码阶段(涉及令牌生成)分离。通过将每个阶段分配到不同的 GPU 集群,Dynamo 可以实现独立的优化。预填充阶段使用高内存 GPU 来加快上下文提取速度,而解码阶段则使用延迟优化的 GPU 来实现高效的令牌流传输。这种分离提高了吞吐量,使 Llama 70B 等模型的速度提高了一倍。

Dynamo 包含一个 GPU 资源规划器,可根据实时利用率动态调度 GPU 分配,优化预填充和解码集群之间的工作负载,以防止过度配置和空闲周期。另一个关键特性是键值(KV)缓存感知智能路由器,它确保传入请求被定向到持有相关键值(KV)缓存数据的 GPU,从而最大限度地减少冗余计算并提高效率。此功能对于生成比标准大型语言模型更多 token 的多步推理模型尤其有益。

NVIDIA 推理传输库(NIXL)是另一个关键组件,它支持 GPU 与 HBM 和 NVMe 等异构内存/存储层之间的低延迟通信。此功能支持亚毫秒级的键值缓存检索,这对于时间敏感型任务至关重要。分布式键值缓存管理器还可以将不常访问的缓存数据卸载到系统内存或 SSD,从而释放 GPU 内存用于活跃计算。这种方法可将整体系统性能提升高达 30 倍,尤其适用于像 DeepSeek-R1 671B 这样的大型模型。

NVIDIA Dynamo 集成了 NVIDIA 的完整堆栈,包括 CUDA、TensorRT 和 Blackwell GPU,同时支持 vLLM 和 TensorRT-LLM 等常用的推理后端。基准测试显示,在 GB200 NVL72 系统上,DeepSeek-R1 等模型的每 GPU 每秒令牌数最高可提高 30 倍。

作为 Triton 推理服务器的继任者,Dynamo 专为需要可扩展、经济高效的推理解决方案的 AI 工厂而设计。它有利于自主系统、实时分析和多模型代理工作流。其开源和模块化设计也使其易于定制,从而能够适应各种 AI 工作负载。

3. 实际应用和行业影响

NVIDIA Dynamo 已在实时 AI 推理至关重要的各个行业展现出其价值。它增强了自主系统、实时分析和 AI 工厂,从而支持高吞吐量 AI 应用。

像 Together AI 这样的公司已经使用 Dynamo 来扩展推理工作负载,在 NVIDIA Blackwell GPU 上运行 DeepSeek-R1 模型时,容量提升高达 30 倍。此外,Dynamo 的智能请求路由和 GPU 调度功能可提高大规模 AI 部署的效率。

4. 竞争优势:Dynamo 与其他方案对比

与 AWS Inferentia 和 Google TPU 等替代方案相比,NVIDIA Dynamo 具有显著优势。它旨在高效处理大规模 AI 工作负载,优化 GPU 调度、内存管理和请求路由,从而提升跨多 GPU 的性能。与 AWS 云基础设施紧密相关的 AWS Inferentia 不同,Dynamo 同时支持混合云和本地部署,从而提供灵活性,帮助企业避免供应商锁定。

Dynamo 的优势之一是其开源模块化架构,允许企业根据自身需求定制框架。它优化了推理过程的每个步骤,确保 AI 模型平稳高效地运行,同时充分利用可用的计算资源。Dynamo 注重可扩展性和灵活性,非常适合寻求经济高效 AI 推理解决方案的企业。

5. 总结

NVIDIA Dynamo 正在通过提供可扩展且高效的解决方案来应对企业在实时 AI 应用方面面临的挑战,从而改变 AI 推理的世界。其开源和模块化设计使其能够优化 GPU 使用率、更好地管理内存并更有效地路由请求,使其成为大规模 AI 任务的理想之选。通过分离关键进程并允许 GPU 动态调整,Dynamo 可以提升性能并降低成本。

与传统系统或竞争对手不同,Dynamo 支持混合云和本地部署,为企业提供更大的灵活性,并减少对任何提供商的依赖。NVIDIA Dynamo 凭借其卓越的性能和适应性,为 AI 推理树立了全新标准,为企业提供先进、经济高效且可扩展的 AI 解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/79712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

postgresql数据库基本操作

1. 连接 PostgreSQL 数据库 首先&#xff0c;使用 psql 命令行工具连接到数据库。如果是本地连接&#xff0c;命令格式如下&#xff1a; psql -U postgres -d <数据库名称> -h <主机地址>其中&#xff1a; -U postgres&#xff1a;表示以 postgres 用户身份登录…

工业大模型:从设备诊断到工艺重构

引言 工业大模型正在引发制造业认知革命。据埃森哲研究,到2026年全球工业大模型市场规模将突破280亿美元,其中工艺优化应用占比达42%。本文将系统解析工业大模型的"预训练-领域适配-应用落地"技术路径,并通过设备健康诊断与工艺参数生成的实践案例,展示如何构建…

PyQt5基本介绍

PyQt5是基于Digia公司强大图形框架Qt5的python接口&#xff0c;由一组python模块构成。是一个用于创建桌面应用程序的Python库&#xff0c;它是Qt图形用户界面工具包的Python绑定。 Qt是一个跨平台的C库&#xff0c;提供了一套丰富的工具和功能&#xff0c;用于开发图形用户界…

Tire 树(字典树/前缀树)

一、定义与结构 用来快速存储查找字符串集合的一种数据结构 将字符串按顺序连接根节点上&#xff0c;并在字符串结束的地方打上标记并计数。 二、模板题 acwing 835 Trie 树的字符串统计 题目&#xff1a; 维护一个字符串集合&#xff0c;支持两种操作&#xff1a; I x 向…

【时时三省】(C语言基础)怎样定义和引用一维数组

山不在高&#xff0c;有仙则名。水不在深&#xff0c;有龙则灵。 ----CSDN 时时三省 一维数组是数组中最简单的&#xff0c;它的元素只需要用数组名加一个下标&#xff0c;就能唯一地确定。如上面介绍的学生成绩数组s就是一维数组。有的数组&#xff0c;其元素要指定两个下标才…

编译faiss

编译faiss-1.10.0 首先确保自己cmake的版本&#xff1a; cmake --version 确保其版本至少为CMake 3.24.0 or higher is required。 其次安装OpenBLAS&#xff1a; https://github.com/OpenMathLib/OpenBLAS 去这里去安转Openblas内容&#xff0c;然后确保自己的CPU的指令集是存…

Linux 入门:操作系统进程详解

目录 一.冯诺依曼体系结构 一&#xff09;. 软件运行前为什么要先加载&#xff1f;程序运行之前在哪里&#xff1f; 二&#xff09;.理解数据流动 二.操作系统OS(Operator System) 一&#xff09;.概念 二&#xff09;.设计OS的目的 三&#xff09;.如何理解操作系统…

word交叉引用图片、表格——只引用编号的处理方法

交叉引用图片/表格 在“引用”选项卡上的“题注”组中&#xff0c;单击“插入题注”。勾选【从题注中排除标签】。在文中插入题注。 【注 意】 这时候插入的题注只有编号项了。然后手动打上标签【TABLE】&#xff0c;并在标签和编号项之间加上【样式分隔符&#xff0c;AltCt…

rails 8 CSS不起效问题解决

很久没用rails了&#xff0c;最近打算重新复习一下。在配置好环境后&#xff0c;创建了项目&#xff0c;通过脚手架创建了数据库表&#xff0c;和相关的文件。但我发现却没有生成相应的CSS文件&#xff0c;可能是rails8 取消了吧。于是自己手动创建了相应的css文件。但是刷新页…

【nlohmann\json.hpp】‘_snprintf‘: is not a member of ‘std‘

这个问题时有发生但是为啥现在更新了vs2022 后,发生了这些报错:2>(compiling source file ../worker/src/fargo/PacedVideoSenderGo.cpp) 2>D:\XTRANS\thunderbolt\ayame

数据结构--【二叉树】

目录 定义结构体&#xff1a; 初始化&#xff1a; 手动创建一个二叉树&#xff1a; 前序遍历&#xff1a; 中序遍历&#xff1a; 后序遍历 二叉树节点个数&#xff1a; 叶子节点个数&#xff1a; 二叉树第k层节点个数&#xff1a; 二叉树的高度&#xff1a; 查找值为x…

深入解析Linux进程间通信(IPC):机制、应用与最佳实践

引言 在多任务操作系统中&#xff0c;进程间通信&#xff08;Inter-Process Communication, IPC&#xff09;是协同工作的核心机制。Linux作为现代操作系统的典范&#xff0c;提供了8种主要IPC方式&#xff0c;从传统的管道到面向网络的套接字&#xff0c;每种方法都暗藏独特的…

2025年“深圳杯”数学建模挑战赛B题-LED显示屏颜色转换设计与校正

LED显示屏颜色转换设计与校正 小驴数模 问题的背景 走在晚风都市&#xff0c;或春日田野&#xff0c;我们都会看到一个色彩斑斓的世界。色彩是我们对世界一种重要感知。什么是色彩&#xff0c;或颜色&#xff1f;颜色是光作用于人眼引起的视觉感知现象&#xff0c;它与物体的…

Java学习手册:Spring MVC 架构与实现

一、Spring MVC 概述 Spring MVC 是 Spring 框架的一个模块&#xff0c;它提供了一套 Web 应用开发的解决方案&#xff0c;实现了 MVC&#xff08;Model-View-Controller&#xff09;设计模式。Spring MVC 提供了清晰的分离逻辑层、视图层和控制器层的结构&#xff0c;便于开发…

【TF-BERT】基于张量的融合BERT多模态情感分析

不足&#xff1a;1. 传统跨模态transformer只能处理2种模态&#xff0c;所以现有方法需要分阶段融合3模态&#xff0c;引发信息丢失。2. 直接拼接多模态特征到BERT中&#xff0c;缺乏动态互补机制&#xff0c;无法有效整合非文本模态信息 改进方法&#xff1a;1. 基于张量的跨模…

maven坐标导入jar包时剔除不需要的内容

maven坐标导入jar包时剔除不需要的内容 问题描述解决方案 问题描述 maven坐标导入jar包时剔除不需要的内容 解决方案 Spring Boot 默认使用 Logback&#xff0c;需在 pom.xml 中排除其依赖&#xff1a; <dependency><groupId>org.springframework.boot</gro…

C与指针——输入输出

错误定位 当一个库函数出错时&#xff0c;errno会被重置 perror(const char* s);\\输出s: errno 对应的错误信息 \\如果单独想要错误信息可以 char* e strerror(errno);\\系统错误码转换为对应的错误信息字符串输出缓冲区 一般输出缓冲区满的时候才刷新&#xff0c;也就是…

JSON Web Token 默认密钥 身份验证安全性分析 dubbo-admin JWT硬编码身份验证绕过

引言 在web开发中&#xff0c;对于用户认证的问题&#xff0c;有很多的解决方案。其中传统的认证方式&#xff1a;基于session的用户身份验证便是可采用的一种。 基于session的用户身份验证验证过程&#xff1a; 用户在用进行验证之后&#xff0c;服务器保存用户信息返回sess…

STM32GPIO输出实战-LED模板

STM32GPIO输出实战-LED模板 一&#xff0c;LED控制原理1&#xff0c;LED控制时GPIO的配置2&#xff0c;LED连接方式3&#xff0c;使用HAL库控制LED的常用函数&#xff1a; 二&#xff0c;任意控制LED模板1&#xff0c;Led底层2&#xff0c;代码详细解析 三&#xff0c;实用技巧…

第二十七届华东杯数学建模A 题 跳台滑雪问题 完整思路模型及代码

题目背景 跳台滑雪起源于 19 世纪&#xff0c;是冬季运动会的传统竞技项目。今年亚洲冬季运动会在我国 哈尔滨举行&#xff0c;跳台滑雪项目吸引了包括中国在内的亚洲各国运动健儿踊跃参加&#xff0c;我国运动员取得了优异的成绩。 跳台滑雪融合了速度、力量与精确控制&…