【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模块化部署,可在 AMD Instinct GPU 上实现可扩展 AI

现代 AI 工作负载的规模和复杂性不断增长,而人们对性能和部署便捷性的期望也日益提升。对于在 AMD Instinct™ GPU 上构建 AI 和 HPC 未来的企业而言,ROCm 6.4 是一次飞跃。随着领先的 AI 框架、优化的容器和模块化基础架构工具的支持日益增强,ROCm 软件持续获得发展动力,助力客户更快创新、更智能地运营,并掌控其 AI 基础架构。

无论您是在多节点集群中部署推理、训练数十亿参数模型还是管理大型 GPU 集群,ROCm 6.4 软件都能通过 AMD Instinct GPU 提供无缝实现高性能的途径。

本博客重点介绍了ROCm 6.4 中的五项关键创新,这些创新直接解决了 AI 研究人员、模型开发人员和基础设施团队面临的常见挑战,使 AI 开发变得快速、简单且可扩展。

1. 用于训练和推理的 ROCm 容器:Instinct GPU 上的即插即用 AI

设置和维护优化的训练和推理环境非常耗时、容易出错,并且会减慢迭代周期。ROCm 6.4 软件引入了一套功能强大的即用型、预先优化的训练和推理容器,专为 AMD Instinct GPU 设计。

  • vLLM(推理容器) ——专为低延迟 LLM 推理而构建,为最新的 Gemma 3(day-0)、Llama、Mistral、Cohere 等开放模型提供即插即用支持。 点击此处了解基于 Instinct GPU 的 Gemma 3。其他相关链接: Docker 容器、 用户指南、 性能数据

  • SGLang(推理容器) ——针对 DeepSeek R1 和代理工作流进行了优化,通过 DeepGEMM、FP8 支持和并行多头注意力机制,实现了卓越的吞吐量和效率。SGLang 关键资源: Docker 容器、 用户指南

  • PyTorch(训练容器) ——包含性能调优的 PyTorch 版本,支持高级注意力机制,有助于在 AMD Instinct MI300X GPU 上实现无缝 LLM 训练。现已针对 Llama 3.1(8B、70B)、Llama 2(70B)和 FLUX.1-dev 进行了优化。访问适用于 ROCm 的 Pytorch 训练 Docker 及相关训练资源,请访问 Docker 容器、 用户指南、 性能数据和 性能验证。

  • Megatron-LM(训练容器) ——基于 ROCm 调优的 Megatron-LM 定制分支,旨在高效训练大规模语言模型,包括 Llama 3.1、Llama 2 和 DeepSeek-V2-Lite。访问 Megatron-LM Docker 和训练资源: Docker 容器、 用户指南、 性能数据、 性能验证

这些容器使 AI 研究人员能够更快地访问交钥匙环境,以评估新模型并运行实验。模型开发者可以利用对当今最先进的 LLM(包括 Llama 3.1、Gemma 3 和 DeepSeek)的预调支持,而无需花费时间进行复杂的配置。对于基础设施团队而言,这些容器可在开发、测试和生产环境中提供一致、可重复的部署,从而实现更顺畅的扩展并简化维护。

2. PyTorch for ROCm 获得重大升级:更快的注意力,更快的训练

训练大型语言模型 (LLM) 不断突破计算和内存的极限,而低效的注意力机制很快就会成为主要瓶颈,减慢迭代速度并增加基础设施成本。ROCm 6.4 软件在 PyTorch 框架内实现了重大性能增强,包括优化的 Flex Attention、TopK 和缩放点积注意力 (SDPA)。

Flex Attention:与 ROCm 6.3 相比,性能有了显著飞跃,大大减少了训练时间和内存开销——尤其是在依赖高级注意力机制的 LLM 工作负载中。
TopK:TopK 运算速度现提升 3 倍,加快推理响应时间,同时保持输出质量(来源)
SDPA:更平滑、长上下文推理。

这些改进意味着更快的训练时间、更低的内存开销以及更高效的硬件利用率。因此,AI 研究人员能够在更短的时间内进行更多实验,模型开发者能够更高效地微调更大的模型,最终,Instinct GPU 客户将受益于更短的训练时间和更高的基础设施投资回报率。

这些升级在ROCm PyTorch 容器中开箱即用。要了解有关 Pytorch 用于 ROCm 训练的更多信息,请阅读此处的博客 。

3. 使用 SGLang 和 vLLM 在 AMD Instinct GPU 上实现下一代推理性能

为大型语言模型提供低延迟、高吞吐量的推理是一项持续的挑战——尤其是在新模型不断涌现、部署速度预期不断提高的情况下。ROCm 6.4 针对 AMD Instinct GPU 进行了专门调优,通过推理优化的 vLLM 和 SGLang 版本正面解决了这一问题。该版本对 Grok、DeepSeek R1、Gemma 3、Llama 3.1(8B、70B、405B)等领先模型提供强大的支持,使 AI 研究人员能够在大规模基准测试中更快地获得结果,而模型开发人员则可以通过极少的调整或返工来部署真实的推理流程。同时,基础设施团队受益于稳定、可立即投入生产的容器,并每周更新,从而有助于确保大规模性能、可靠性和一致性。

这些工具共同提供了一个全栈推理环境,稳定容器和开发容器分别每两周和每周更新一次。

4. 使用 AMD GPU Operator 进行无缝 Instinct GPU 集群管理

在 Kubernetes 集群中扩展和管理 GPU 工作负载通常需要手动更新驱动程序、停机维护以及有限的 GPU 健康状况可见性,所有这些都会影响性能和可靠性。借助 ROCm 6.4,AMD GPU Operator 实现了 GPU 调度、驱动程序生命周期管理和实时遥测的自动化,从而端到端地简化了集群操作。这意味着基础架构团队可以以最小的中断执行升级,AI 和 HPC 管理员可以放心地在隔离且安全的环境中部署 AMD Instinct GPU,并实现完全的可观察性,而 Instinct 客户则可以受益于更长的正常运行时间、更低的运营风险以及更具弹性的 AI 基础架构。

新功能包括:

自动封锁、排水、重启以进行滚动更新。
扩展对 Red Hat OpenShift 4.16–4.17 和 Ubuntu 22.04/24.04 的支持,有助于确保与现代云和企业环境的兼容性。
基于 Prometheus 的设备指标导出器,用于实时健康跟踪。

5. 全新 Instinct GPU 驱动程序的软件模块化

耦合的驱动程序堆栈会减慢升级周期,增加维护风险,并降低跨环境的兼容性。ROCm 6.4 软件引入了Instinct GPU 驱动程序,这是一种模块化驱动程序架构,将内核驱动程序与 ROCm 用户空间分离。

主要优点,

基础设施团队现在可以独立更新驱动程序或 ROCm 库。
更长的 12 个月兼容期(之前版本为 6 个月)
跨裸机、容器和 ISV 应用程序更灵活地部署

这降低了发生重大变化的风险并简化了整个机群的更新 - 尤其对于云提供商、政府组织和具有严格 SLA 的企业有用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/82102.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【含文档+PPT+源码】基于微信小程序连锁药店商城

项目介绍 本课程演示的是一款基于微信小程序连锁药店商城,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系统 3.该项目附带的…

node.js模块化步骤(各标准区别)CommonJS规范、AMD规范、UMD规范、ES Modules (ESM)

前后端建议统一使用ESM 文章目录 Node.js模块化发展历程与标准对比一、模块化的意义1.1 解决的核心问题1.2 没有模块化的问题 二、CommonJS规范2.1 核心特征2.2 实现示例 三、AMD (Asynchronous Module Definition)3.1 特点3.2 代码示例 四、UMD (Universal Module Definition)…

人工智能与智能合约:如何用AI优化区块链技术中的合约执行?

引言:科技融合的新风口 区块链和人工智能,是当前最受瞩目的两大前沿技术。一个以去中心化、可溯源的机制重构信任体系,另一个以智能学习与决策能力重塑数据的价值。当这两项技术相遇,会碰撞出什么样的火花? 智能合约作…

RabbitMQ-api开发

前言 MQ就是接收并转发消息 核心概念 admin是用户 每个虚拟机上都有多个交换机 快速入门 引入依赖 <dependency><groupId>com.rabbitmq</groupId><artifactId>amqp-client</artifactId><version>5.22.0</version></dependen…

PostgreSQL Patroni集群组件作用介绍:Patroni、etcd、HAProxy、Keepalived、Watchdog

1. Watchdog 简介 1.1 核心作用 • 主节点故障检测 Watchdog 会定时检测数据库主节点&#xff08;或 Pgpool 主节点&#xff09;的运行状态。 一旦主节点宕机&#xff0c;它会发起故障切换请求。 • 协调主备切换 多个 Pgpool 节点时&#xff0c;Watchdog 保证只有一个 Pg…

【多种不同提交方式】通过springboot实现与前端网页数据交互(非常简洁快速)

【多种不同提交方式】通过springboot实现与前端网页数据交互 提示&#xff1a;帮帮志会陆续更新非常多的IT技术知识&#xff0c;希望分享的内容对您有用。本章分享的是springboot的使用。前后每一小节的内容是存在的有&#xff1a;学习and理解的关联性。【帮帮志系列文章】&am…

使用 AI 如何高效解析视频内容?生成思维导图或分时段概括总结

一、前言 AI 发展的如此迅速&#xff0c;有人想通过 AI 提效对视频的解析&#xff0c;怎么做呢&#xff1f; 豆包里面有 AI 视频总结的功能&#xff0c;可以解析bilibili网站上部分视频&#xff0c;如下图所示&#xff1a; 但有的视频解析时提示&#xff1a; 所以呢&#x…

鞅与停时 - 一种特别的概率论问题

讨论一个有趣的概率问题&#xff1a; [P3334 ZJOI2013] 抛硬币 - 洛谷 实际上是一个猴子打字问题&#xff0c;考虑一直无规律随即打字的猴子&#xff0c;键盘上只有A-Z一共26个字母&#xff0c;对于一个特定的字符串 S S S &#xff1a; ABCABCAB &#xff0c;能否在有限的打…

arcgis和ENVI中如何将数据输出为tif

一、arcgis中转换为tif 右键图层&#xff1a; Data -> Export Data, 按照图示进行选择&#xff0c;选择tiff格式导出即可&#xff0c;还可以选择其他类型的格式&#xff0c;比如envi。 二、 ENVI中转换为tif File -> Save As -> Save As (ENVI, NITF, TIFF, DTED) …

如何用命令行判断一个exe是不是c#wpf开发的

在powershell下执行 $assembly [Reflection.Assembly]::ReflectionOnlyLoadFrom("你的exe全路径") $references $assembly.GetReferencedAssemblies() echo $assembly $references | Where-Object { $_.Name -match "PresentationFramework|PresentationCore…

2025.05.07-华为机考第三题300分

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 03. 城市紧急救援队伍协同规划 问题描述 智慧城市建设中,卢小姐负责设计一套紧急救援队伍协同系统。城市被规划为一个 n n n \times n

深入理解Redis SDS:高性能字符串的终极设计指南

&#x1f4cd; 文章提示 10分钟掌握Redis核心字符串设计 | 从底层结构到源码实现&#xff0c;揭秘SDS如何解决C字符串七大缺陷&#xff0c;通过20手绘图示与可运行的C代码案例&#xff0c;助你彻底理解二进制安全、自动扩容等核心机制&#xff0c;文末附实战优化技巧&#xff…

jupyter notebook汉化教程

本章教程记录&#xff0c;jupyter notebook汉化步骤&#xff0c;如果对汉化有需求的小伙伴可以看看。 一、安装jupyter 如果你是安装的anaconda的那么默认是包含了Jupyter notebook的&#xff0c;如果是miniconda或者基础python&#xff0c;默认是不包含的jupyter组件的&#x…

模拟设计中如何减小失配

Xx 芯片测试结果显示&#xff0c;offset 指标偏高&#xff0c;不符合指标要求。所以查看了资料&#xff0c;温习了减小的失配的方法。 注意点一&#xff1a; 将所有offet折算到输入端&#xff0c;得到以下公式&#xff1a; 可以看到a&#xff09;阈值电压失配直接折算成输…

C++ 与 Lua 联合编程

在软件开发的广阔天地里&#xff0c;不同编程语言各有所长。C 以其卓越的性能、强大的功能和对硬件的直接操控能力&#xff0c;在系统开发、游戏引擎、服务器等底层领域占据重要地位&#xff0c;但c编写的程序需要编译&#xff0c;这往往是一个耗时操作&#xff0c;特别对于大型…

烤箱面包烘焙状态图详解:从UML设计到PlantUML实现

题目&#xff1a;假设你正着手设计一个烤箱。建立一个跟踪烤箱中面包状态的状态图。要包括必要的触发器事件、动作和监视条件。 一、状态图概述 状态图是UML&#xff08;统一建模语言&#xff09;中的一种行为图&#xff0c;它用于描述系统中对象的状态变化以及触发这些变化的…

三款实用工具推荐:配音软件+Windows暂停更新+音视频下载!

各位打工人请注意&#xff01;今天李师傅掏出的三件套&#xff0c;都是经过实战检验的效率放大器。先收藏再划走&#xff0c;说不定哪天就能救命&#xff01; 一.祈风TTS-配音大师 做短视频的朋友肯定深有体会——配个音比写脚本还费劲&#xff01;要么付费买声音&#xff0c…

物流无人机结构与载货设计分析!

一、物流无人机的结构与载货设计模块运行方式 1.结构设计特点 垂直起降与固定翼结合&#xff1a;针对复杂地形&#xff08;如山区、城市&#xff09;需求&#xff0c;采用垂直起降&#xff08;VTOL&#xff09;与固定翼结合的复合布局&#xff0c;例如“天马”H型无人机&am…

Decode rpc invocation failed: null -> DecodeableRpcInvocation

DecodeableRpcInvocation 异常情况解决方法 错误警告官方FAQ 异常情况 记录一下Dubbo调用异常 java.util.concurrent.ExecutionException: org.apache.dubbo.remoting.TimeoutException: Waiting server-side response timeout by scan timer. start time: 2025-05-07 22:09:5…

Excel VBA 词频统计宏

在Excel中&#xff0c;我们经常需要分析文本数据&#xff0c;例如统计某个单词或短语在文档中出现的次数。虽然Excel本身提供了一些文本处理功能&#xff08;如COUNTIF&#xff09;&#xff0c;但对于复杂的词频统计&#xff0c;手动操作可能效率低下。这时&#xff0c;VBA宏可…