【AI科技】AMD ROCm 6.4 新功能：突破性推理、即插即用容器和模块化部署，可在 AMD Instinct GPU 上实现可扩展 AI

AMD ROCm 6.4 新功能：突破性推理、即插即用容器和模块化部署，可在 AMD Instinct GPU 上实现可扩展 AI

现代 AI 工作负载的规模和复杂性不断增长，而人们对性能和部署便捷性的期望也日益提升。对于在 AMD Instinct™ GPU 上构建 AI 和 HPC 未来的企业而言，ROCm 6.4 是一次飞跃。随着领先的 AI 框架、优化的容器和模块化基础架构工具的支持日益增强，ROCm 软件持续获得发展动力，助力客户更快创新、更智能地运营，并掌控其 AI 基础架构。

无论您是在多节点集群中部署推理、训练数十亿参数模型还是管理大型 GPU 集群，ROCm 6.4 软件都能通过 AMD Instinct GPU 提供无缝实现高性能的途径。

本博客重点介绍了ROCm 6.4 中的五项关键创新，这些创新直接解决了 AI 研究人员、模型开发人员和基础设施团队面临的常见挑战，使 AI 开发变得快速、简单且可扩展。

1. 用于训练和推理的 ROCm 容器：Instinct GPU 上的即插即用 AI

设置和维护优化的训练和推理环境非常耗时、容易出错，并且会减慢迭代周期。ROCm 6.4 软件引入了一套功能强大的即用型、预先优化的训练和推理容器，专为 AMD Instinct GPU 设计。

vLLM（推理容器） ——专为低延迟 LLM 推理而构建，为最新的 Gemma 3（day-0）、Llama、Mistral、Cohere 等开放模型提供即插即用支持。点击此处了解基于 Instinct GPU 的 Gemma 3。其他相关链接： Docker 容器、用户指南、性能数据
SGLang（推理容器） ——针对 DeepSeek R1 和代理工作流进行了优化，通过 DeepGEMM、FP8 支持和并行多头注意力机制，实现了卓越的吞吐量和效率。SGLang 关键资源： Docker 容器、用户指南
PyTorch（训练容器） ——包含性能调优的 PyTorch 版本，支持高级注意力机制，有助于在 AMD Instinct MI300X GPU 上实现无缝 LLM 训练。现已针对 Llama 3.1（8B、70B）、Llama 2（70B）和 FLUX.1-dev 进行了优化。访问适用于 ROCm 的 Pytorch 训练 Docker 及相关训练资源，请访问 Docker 容器、用户指南、性能数据和性能验证。
Megatron-LM（训练容器） ——基于 ROCm 调优的 Megatron-LM 定制分支，旨在高效训练大规模语言模型，包括 Llama 3.1、Llama 2 和 DeepSeek-V2-Lite。访问 Megatron-LM Docker 和训练资源： Docker 容器、用户指南、性能数据、性能验证

这些容器使 AI 研究人员能够更快地访问交钥匙环境，以评估新模型并运行实验。模型开发者可以利用对当今最先进的 LLM（包括 Llama 3.1、Gemma 3 和 DeepSeek）的预调支持，而无需花费时间进行复杂的配置。对于基础设施团队而言，这些容器可在开发、测试和生产环境中提供一致、可重复的部署，从而实现更顺畅的扩展并简化维护。

2. PyTorch for ROCm 获得重大升级：更快的注意力，更快的训练

训练大型语言模型 (LLM) 不断突破计算和内存的极限，而低效的注意力机制很快就会成为主要瓶颈，减慢迭代速度并增加基础设施成本。ROCm 6.4 软件在 PyTorch 框架内实现了重大性能增强，包括优化的 Flex Attention、TopK 和缩放点积注意力 (SDPA)。

Flex Attention：与 ROCm 6.3 相比，性能有了显著飞跃，大大减少了训练时间和内存开销——尤其是在依赖高级注意力机制的 LLM 工作负载中。
TopK：TopK 运算速度现提升 3 倍，加快推理响应时间，同时保持输出质量（来源）
SDPA：更平滑、长上下文推理。

这些改进意味着更快的训练时间、更低的内存开销以及更高效的硬件利用率。因此，AI 研究人员能够在更短的时间内进行更多实验，模型开发者能够更高效地微调更大的模型，最终，Instinct GPU 客户将受益于更短的训练时间和更高的基础设施投资回报率。

这些升级在ROCm PyTorch 容器中开箱即用。要了解有关 Pytorch 用于 ROCm 训练的更多信息，请阅读此处的博客。

3. 使用 SGLang 和 vLLM 在 AMD Instinct GPU 上实现下一代推理性能

为大型语言模型提供低延迟、高吞吐量的推理是一项持续的挑战——尤其是在新模型不断涌现、部署速度预期不断提高的情况下。ROCm 6.4 针对 AMD Instinct GPU 进行了专门调优，通过推理优化的 vLLM 和 SGLang 版本正面解决了这一问题。该版本对 Grok、DeepSeek R1、Gemma 3、Llama 3.1（8B、70B、405B）等领先模型提供强大的支持，使 AI 研究人员能够在大规模基准测试中更快地获得结果，而模型开发人员则可以通过极少的调整或返工来部署真实的推理流程。同时，基础设施团队受益于稳定、可立即投入生产的容器，并每周更新，从而有助于确保大规模性能、可靠性和一致性。

这些工具共同提供了一个全栈推理环境，稳定容器和开发容器分别每两周和每周更新一次。

4. 使用 AMD GPU Operator 进行无缝 Instinct GPU 集群管理

在 Kubernetes 集群中扩展和管理 GPU 工作负载通常需要手动更新驱动程序、停机维护以及有限的 GPU 健康状况可见性，所有这些都会影响性能和可靠性。借助 ROCm 6.4，AMD GPU Operator 实现了 GPU 调度、驱动程序生命周期管理和实时遥测的自动化，从而端到端地简化了集群操作。这意味着基础架构团队可以以最小的中断执行升级，AI 和 HPC 管理员可以放心地在隔离且安全的环境中部署 AMD Instinct GPU，并实现完全的可观察性，而 Instinct 客户则可以受益于更长的正常运行时间、更低的运营风险以及更具弹性的 AI 基础架构。