基准测试:Akamai云上的NVIDIA RTX Pro 6000 Blackwell

执行摘要

基准测试显示,在Akamai云上运行的NVIDIA RTX PRO™ 6000 Blackwell推理吞吐量比H100最高提升1.63倍,在100个并发请求下每台服务器达到24,240 TPS。

为Akamai推理云进行基准测试

本周,Akamai宣布推出Akamai推理云。我们将自身在全球分布式架构方面的专业知识与NVIDIA Blackwell AI基础设施相结合,从根本上重新思考并扩展了释放AI真正潜力所需的加速计算能力。

Akamai推理云平台将NVIDIA RTX PRO™服务器(配备NVIDIA RTX PRO 6000 Blackwell服务器版GPU、NVIDIA BlueField-3® DPU和NVIDIA AI Enterprise软件)与Akamai的分布式云计算基础设施和全球边缘网络(在全球拥有超过4,400个站点)相结合。

高效、通用且优化的GPU

分布式推理和下一代智能体体验需要高效、通用并能针对并发实时工作负载进行优化的GPU。RTX PRO 6000 Blackwell完全满足这三项要求。其FP4精度模式以数据中心级GPU的一小部分功耗和成本提供了卓越的吞吐量,使得将其部署到数百个站点变得切实可行。

该架构支持在单个GPU上并发处理包括文本、视觉和语音在内的多模态工作负载,减少了对专用加速器的需求,并限制了不必要的网络数据传输。

NVIDIA RTX Pro服务器针对代理式AI、工业和物理AI、科学计算、数据分析与模拟、视觉计算和企业应用等工作负载进行了优化。

NVIDIA强调,这些服务器能够实现高达6倍的大语言模型推理吞吐量、4倍更快的合成数据生成速度、7倍更快的基因组序列比对速度、3倍更高的工程模拟吞吐量、4倍更佳的实时渲染性能,以及4倍更多的并发多实例GPU工作负载。

性能验证

为了验证性能,我们测试了在Akamai云上运行的NVIDIA RTX Pro 6000 Blackwell服务器版GPU,并使用NVIDIA LaunchPad环境将其与NVIDIA H100 NVL 96GB进行了基准比较。

我们的目标是了解,与目前行业的黄金标准相比,下一代RTX Pro 6000 GPU在实际推理工作负载中的表现如何。

基准测试结果展示

基准测试结果证实了NVIDIA RTX Pro 6000 Blackwell在Akamai云上的设计优势。

  • 相较于H100(FP8),吞吐量提升1.63倍,这表明RTX Pro 6000 Blackwell以更小巧、更易于部署的规格提供了数据中心级的性能,非常适合于分布式环境。
  • 从FP8切换到FP4带来的1.32倍性能提升,展示了NVIDIA的精度效率如何直接转化为在边缘更快、更具成本效益的推理。
  • 100+并发请求下保持稳定的性能,验证了该GPU处理全球分布式推理中多租户、对延迟敏感的工作负载的能力。

综合来看,这些结果表明,Blackwell的效率和并发性优势使其成为Akamai分布式推理架构的理想基础,能够在我们的全球网络中提供高吞吐、低延迟和可扩展的性能。

基准测试概述

我们遵循NVIDIA的基准测试方法来评估一致负载条件下的推理性能。在本文中,我们将介绍设置、方法和关键发现,并讨论这些结果对在Akamai云上运行AI工作负载的意义。

设置

为了评估Akamai云上的NVIDIA RTX Pro 6000 GPU,我们使用了Llama-3.3-Nemotron-Super-49B-v1.5模型,这是一个源于Meta Llama-3.3-70B-Instruct(即参考模型)的大语言模型。它是一个针对推理、人类聊天偏好以及智能体任务(如RAG和工具调用)进行后训练的推理模型。

我们为同一模型使用了两个NVIDIA推理微服务配置文件,以比较精度模式并了解其对性能和效率的影响。这两个配置文件——tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 和 tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5——除了精度设置外完全相同。

第一个使用FP8精度,第二个使用NVIDIA的FP4精度。NVIDIA的FP4版本直接在NVIDIA Blackwell GPU中得到支持。

通过运行两者,我们旨在观察降低数值精度如何影响吞吐量和延迟。NVFP4以低于1%的精度损失带来了显著的性能和效率提升,实现了更快、更低功耗的大规模推理,而FP8则提供了更高的数值精度。比较两者有助于为实际工作负载确定速度、效率和推理保真度之间的最佳权衡。

我们在位于Akamai云LAX数据中心的NVIDIA RTX Pro 6000 Blackwell服务器版GPU上运行了测试。为了进行比较,我们使用了NVIDIA LaunchPad环境中的NVIDIA H100 GPU。

方法论

对于此基准测试,我们运行了一个旨在测量现实负载条件下基线推理性能的压力测试。每个请求处理200个输入令牌并生成200个输出令牌,代表了大语言模型典型的短提示-响应交互。

为了测试可扩展性和一致性,我们执行了100个并发运行,使我们能够观察系统处理持续同时推理量时的吞吐量和延迟行为。这种方法提供了模型和硬件在生产类工作负载下性能的一个受控但具有代表性的快照。

我们测量了两个关键指标:首令牌时间(TTFT)每秒令牌数(TPS)。TTFT以毫秒为单位,衡量模型在收到提示后开始生成响应的速度——这是延迟和用户感知响应性的重要指标。TPS衡量整体吞吐量,显示系统在生成开始后每秒可以生成多少令牌。

两者结合提供了现实世界性能的平衡视图,反映了初始推理的速度以及负载下的持续输出效率。

作为基准测试方法的一部分,我们运行了两组测试来评估NVIDIA RTX 6000 Blackwell服务器版GPU的性能特征。

  1. FP4与FP8精度比较
    我们在同一模型上测试了两个NIM配置文件——一个使用FP8精度,另一个使用FP4精度——以衡量NVIDIA新型FP4量化对推理性能的影响。NVIDIA强调FP4是效率和吞吐量方面的一项重大进步。
  2. RTX 6000与H100 GPU比较
    然后,我们将RTX 6000 Blackwell的结果与在NVIDIA LaunchPad环境中运行的H100 GPU进行了比较,通过查看两个NIM配置文件FP8FP4来评估实际推理优势。这使我们能够评估RTX 6000不仅在不同精度模式下的表现,还与NVIDIA当前的数据中心GPU标准进行对比。

详细结果

我们确定最佳并发级别为100——即在100个同时推理请求下,我们观察到了最稳定和最具代表性的性能结果。在C=100时,RTX 6000从FP8切换到FP4精度带来了1.32倍的性能提升,显示了NVIDIA FP4量化的效率增益。

与使用FP8精度的H100相比,RTX Pro 6000 Blackwell服务器在使用NVFP4精度时实现了1.63倍的性能提升。即使使用FP8,Blackwell服务器也展示了1.21倍的优势,显示了超越旧FP8格式的下一代推理优化。

总体而言,在此并发级别下,RTX Pro 6000 Blackwell服务器实现了3,030.01 TPS,这相当于我们基础设施即服务(IaaS)虚拟机产品可提供高达24,240.08 TPS,突显了Blackwell架构在Akamai云上强大的推理性能和可扩展性。

测试1:FP8与FP4精度比较

RTX Pro 6000 Blackwell FP8与FP4的性能结果。

LAX:NVIDIA RTX Pro 6000 Blackwell服务器 FP8

LAX:NVIDIA RTX PRO 6000 Blackwell服务器 FP4

测试2:RTX Pro 6000 Blackwell服务器与H100 GPU比较

H100 NVL FP8与RTX Pro 6000 Blackwell服务器 FP8和FP4的性能结果比较。

LaunchPad:H100 NVL FP8

LaunchPad:NVIDIA RTX PRO 6000 Blackwell服务器 FP8

LaunchPad:NVIDIA RTX PRO 6000 Blackwell服务器 FP4

结论

本次基准测试旨在评估NVIDIA RTX Pro 6000 Blackwell服务器版GPU在Akamai云上执行LLM推理的表现,以及在相似假设下与NVIDIA H100 GPU的比较。使用NVIDIA推荐的基准测试方法,我们测试了FP8和FP4两种精度模式,以了解性能、效率和延迟之间的权衡。

结果清楚地表明,FP4带来了可衡量的增益,在RTX 6000上相比FP8吞吐量提升1.32倍。与FP8下的H100相比,RTX 6000(FP4)实现了1.63倍的性能提升,突显了Blackwell架构在推理工作负载方面的潜力。

这些发现表明,在Akamai分布式云上运行的RTX 6000 GPU能够以更低的成本和延迟为实际AI推理提供高吞吐量和高效的扩展。对于正在评估GPU方案的团队而言,这种组合能在全球范围内达成速度、效率与可及性的卓越平衡。

获取访问权限

注册以获取在Akamai推理云上使用RTX Pro 6000 Blackwell服务器版的访问权限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1137722.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qwen2.5-7B实战对比:与Llama3在多语言生成上的GPU利用率评测

Qwen2.5-7B实战对比:与Llama3在多语言生成上的GPU利用率评测 1. 背景与选型动机 随着大语言模型(LLM)在多语言任务中的广泛应用,模型的跨语言生成能力和硬件资源利用效率成为工程落地的关键指标。尤其在面向全球化服务的场景中&a…

设备树配置错误关联crash的手把手教程

从一个崩溃日志说起:如何揪出设备树里的“隐藏炸弹”你有没有遇到过这种情况?板子上电,串口刚打出几行内核启动信息,突然戛然而止——没有完整的 Oops,没有调用栈,甚至连Kernel panic都来不及打印。系统就像…

ModbusSlave使用教程:从零实现与主站通信联调

从零搭建Modbus从站:手把手教你用ModbusSlave完成主站联调 你有没有遇到过这样的场景?PLC程序写完了,HMI画面也做好了,结果现场设备还没到货,通信没法测试。或者某个寄存器读出来总是不对,怀疑是协议配置出…

Qwen2.5-7B推理延迟高?GPU算力调优部署案例详解

Qwen2.5-7B推理延迟高?GPU算力调优部署案例详解 1. 背景与问题提出 随着大语言模型在实际业务中的广泛应用,推理延迟成为影响用户体验的关键瓶颈。Qwen2.5-7B作为阿里云最新发布的开源大模型,在数学推理、代码生成和多语言支持方面表现出色&…

Python——Windows11环境安装配置Python 3.12.5

目录一、下载Python二、下载Python步骤三、安装Python四、验证Python4.1、验证Python环境4.2、验证pip4.3、pip镜像源切换(永久切换,全局生效)4.4、安装依赖包(检验是否成功)五、配置环境变量(可选)一、下载Python 下载…

Qwen2.5-7B角色扮演:个性化聊天机器人开发

Qwen2.5-7B角色扮演:个性化聊天机器人开发 1. 技术背景与应用价值 随着大语言模型(LLM)在自然语言理解与生成能力上的持续突破,角色扮演型聊天机器人正从简单的问答系统演变为具备高度拟人化、情感化和场景定制化的智能体。阿里…

ego1开发板大作业vivado实现4位加法器操作指南

从零开始:用Vivado在ego1开发板上实现4位加法器 你是不是正为数字逻辑课的大作业发愁? “用FPGA实现一个4位加法器”——听起来挺简单,但真正动手时却发现:Vivado怎么新建工程?Verilog代码写完之后下一步该做什么&am…

Qwen2.5-7B镜像测评:网页服务响应速度实测报告

Qwen2.5-7B镜像测评:网页服务响应速度实测报告 1. 背景与测试目标 随着大语言模型在实际业务场景中的广泛应用,模型的推理性能和服务响应速度已成为决定用户体验的关键指标。阿里云最新发布的 Qwen2.5-7B 模型作为 Qwen 系列的重要升级版本,…

Qwen2.5-7B异常检测:模型输出可靠性分析

Qwen2.5-7B异常检测:模型输出可靠性分析 1. 引言:为何关注大模型的输出可靠性? 随着大语言模型(LLM)在实际业务场景中的广泛应用,模型输出的稳定性与可预测性逐渐成为工程落地的关键瓶颈。尽管 Qwen2.5-7B…

Qwen2.5-7B数学证明辅助:逻辑推理能力实战测试

Qwen2.5-7B数学证明辅助:逻辑推理能力实战测试 1. 引言:大模型在数学推理中的新突破 1.1 数学证明的挑战与AI的机遇 数学证明是人类逻辑思维的巅峰体现,要求严密的演绎推理、符号操作和结构化表达。传统上,这类任务依赖专家人工…

Qwen2.5-7B科研论文辅助实战:学术写作生成部署案例

Qwen2.5-7B科研论文辅助实战:学术写作生成部署案例 1. 引言:大模型如何赋能科研写作? 1.1 科研写作的现实挑战 在现代科研工作中,撰写高质量的学术论文已成为研究者的核心任务之一。然而,从文献综述、方法描述到结果…

相同工况下SiC与Si整流二极管寿命对比研究

SiC vs. Si整流二极管寿命大比拼:谁才是高可靠性电源的“长寿之王”?在新能源汽车、光伏逆变器和工业电源等现代电力电子系统中,效率与可靠性的竞争早已进入“毫瓦级损耗、摄氏度温差”的精细博弈阶段。作为电路中的关键角色——整流二极管&a…

基于CentOS的Elasticsearch部署全面讲解

从零开始:在 CentOS 上稳扎稳打部署 Elasticsearch你有没有遇到过这样的场景?系统日志堆积如山,排查问题像大海捞针;用户搜索商品时响应迟缓,体验大打折扣。这些痛点的背后,往往缺一个高效、实时的搜索引擎…

微服务环境下es连接工具的日志整合应用

微服务日志上云:如何用好ES连接工具打通可观测“最后一公里”你有没有遇到过这样的场景?线上服务突然报错,用户投诉不断。你火速登录服务器,却发现日志分散在十几个微服务实例中——有的写在容器标准输出,有的藏在挂载…

Qwen2.5-7B上下文管理:131K tokens切分策略实战

Qwen2.5-7B上下文管理:131K tokens切分策略实战 1. 背景与挑战:超长上下文下的信息完整性难题 1.1 Qwen2.5-7B 模型特性解析 Qwen2.5-7B 是阿里云推出的最新一代大语言模型,属于 Qwen2.5 系列中参数量为 76.1 亿的中等规模版本。该模型在多…

一文说清Altium Designer层堆栈设计规范

搞懂Altium Designer层堆栈设计:从入门到实战的系统化指南你有没有遇到过这样的情况?——电路板做出来后,高速信号眼图闭合、电源噪声大得离谱,EMC测试直接不过;返工改版,成本翻倍。一查原因,竟…

开源模型企业落地指南:Qwen2.5-7B生产环境部署要点

开源模型企业落地指南:Qwen2.5-7B生产环境部署要点 1. 引言:为何选择 Qwen2.5-7B 进行企业级部署? 随着大语言模型(LLM)在智能客服、内容生成、代码辅助等场景的广泛应用,企业对高性能、可私有化部署、支持…

Qwen2.5-7B安全部署:模型访问权限控制指南

Qwen2.5-7B安全部署:模型访问权限控制指南 1. 背景与部署需求 1.1 Qwen2.5-7B 模型简介 Qwen2.5 是最新的 Qwen 大型语言模型系列,作为阿里云开源的大语言模型,其在自然语言理解、代码生成、数学推理和多语言支持方面实现了显著提升。其中…

VHDL课程设计大作业常见错误及Vivado解决方案

从踩坑到通关:VHDL课程设计大作业常见“雷区”与Vivado实战排错指南你是不是也经历过这样的夜晚?代码写完,信心满满点下“Run Synthesis”,结果Vivado弹出一长串红色报错;仿真波形莫名其妙卡住不动,板子下载…

如何使用 Python 合并多个 Excel 文件

在日常工作中,处理多个 Excel 文件并将它们合并为一个文件,常常是数据分析、报告生成等工作的必要步骤。对于数据分析师、业务人员以及任何需要处理大量 Excel 数据的人来说,这是一项常见且繁琐的任务。与其手动复制粘贴不同工作表中的数据&a…