Nvidia H100 算力服务器 Cuda、FabricManager、Container 安装和升级 - 教程

news/2026/1/16 21:13:30/文章来源:https://www.cnblogs.com/yangykaifa/p/19494069

本文将介绍如下内容:

  • 一、安装前环境配置与检查
  • 二、NVIDIA驱动安装(两种方法选一种即可)
  • 三、NVIDIA Fabric Manager部署
  • 四、安装 NVIDIA Container Toolkit

一、安装前环境配置与检查

1. 确保系统环境

我们使用 Ubuntu 22.04,建议先更新系统并重启系统:

sudo apt update && sudo apt upgrade -y
# H100服务器目前配置
root@GPU02:~$ cat /etc/os-release
PRETTY_NAME="Ubuntu 22.04.5 LTS"
NAME="Ubuntu"
VERSION_ID="22.04"
VERSION="22.04.5 LTS (Jammy Jellyfish)"
VERSION_CODENAME=jammy
ID=ubuntu
ID_LIKE=debian
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
UBUNTU_CODENAME=jammy

2. 查看显卡型号

[root@fusion: ~]# lspci |grep -i vga
//或者以下命令
[root@GPU01: ~]# lspci |grep -i NVIDIA
05:00.0 Bridge: NVIDIA Corporation Device 22a3 (rev a1)
06:00.0 Bridge: NVIDIA Corporation Device 22a3 (rev a1)
07:00.0 Bridge: NVIDIA Corporation Device 22a3 (rev a1)
08:00.0 Bridge: NVIDIA Corporation Device 22a3 (rev a1)
18:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
2a:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
3a:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
5d:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
9a:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
ab:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
ba:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)
db:00.0 3D controller: NVIDIA Corporation Device 2330 (rev a1)

具体含义如下:

  • lspci: 列出所有 PCI 总线上的设备。它显示的是系统中所有通过 PCI (Peripheral Component Interconnect) 接口连接的硬件设备的信息。

  • 05:00.0 Bridge: NVIDIA Corporation Device 22a3 (rev a1)

    • 设备位置:05:00.0。表示设备在 PCI 总线的地址。
    • 类型: PCIE Bridge,即桥接器。通常,桥接器用于将多个设备连接到一个总线上,或实现不同总线之间的通信。
    • 设备标识符: Device 22a3,表示设备的特定型号或版本。
  • (rev a1):表示设备的版本(a1 可能是修订版号):

    • 设备位置: 18:00.0,这是一个图形显卡(GPU)。
    • 设备标识符: Device 2330,指明这是一个 GPU。

3. 删除之前安装的驱动

之前若有安装驱动,可以通过指令sudo apt purge nvidia*删除以前安装的NVIDIA驱动版本,并重新启动计算机,再重新安装。

#查看之前安装的nvidia驱动版本
ls /usr/src | grep nvidia
#卸载驱动
sudo apt purge nvidia*
#或者以下命令
sudo  apt-get autoremove cuda* nvidia* nouveau* --purge
#也可以使用官方提供的卸载脚本卸载
/usr/bin/nvidia-uninstall
dpkg -r nvidia-fabricmanager
dpkg --purge nvidia-fabricmanager
dpkg -l | grep nvidia-fabricmanager

4. 关闭系统自带的 nouveau

在安装NVIDIA驱动以前需要禁止系统自带显卡驱动nouveau:
可以先通过指令lsmod | grep nouveau查看nouveau驱动的启用情况,如果有输出表示nouveau驱动正在工作,如果没有内容输出则表示已经禁用了nouveau。
如果有则按照下面操作禁用:

sudo tee /etc/modprobe.d/blacklist-nouveau.conf <<EOF
blacklist nouveau
options nouveau modeset=0
EOF
#更新内核文件
sudo update-initramfs -u
#执行上面命令后,重启系统:
reboot

在 Ubuntu 22.04 中,禁用原有的 GPU 驱动(尤其是默认的 nouveau 驱动或已安装的旧版 NVIDIA 驱动)非常重要,以避免与新的 NVIDIA 驱动 发生冲突。执行如下命令禁用原有GPU驱动后,重启系统。

二、NVIDIA驱动安装(两种方法选一种即可)

1. 方法一:系统推荐安装

#安装依赖包
[root@GPU01: ~]#  sudo apt update && apt install ubuntu-drivers-common alsa-utils
#查询可以安装的驱动
[root@GPU01: ~]# sudo ubuntu-drivers devices
ERROR:root:aplay command not found
== /sys/devices/pci0000:15/0000:15:01.0/0000:16:00.0/0000:17:00.0/0000:18:00.0 ==
modalias : pci:v000010DEd00002330sv000010DEsd000016C1bc03sc02i00
vendor   : NVIDIA Corporation
driver   : nvidia-driver-545 - distro non-free
driver   : nvidia-driver-580 - distro non-free recommended
driver   : nvidia-driver-570-server-open - distro non-free
driver   : nvidia-driver-570-server - distro non-free
driver   : nvidia-driver-570 - distro non-free
driver   : nvidia-driver-580-open - distro non-free
driver   : nvidia-driver-545-open - distro non-free
driver   : nvidia-driver-570-open - distro non-free
driver   : nvidia-driver-535-server - distro non-free
driver   : nvidia-driver-535-server-open - distro non-free
driver   : nvidia-driver-535 - distro non-free
driver   : nvidia-driver-580-server - distro non-free
driver   : nvidia-driver-535-open - distro non-free
driver   : nvidia-driver-580-server-open - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin
#安装系统推荐的580驱动,重启操作系统即可
[root@fusion: ~]# apt-get install nvidia-driver-580 -y 
[root@fusion: ~]# reboot

推荐你安装驱动的版本为580.95.05

2. 方法二:指定安装

2.1. 确定 Nvidia Driver 版本

去官网Download The Official NVIDIA Drivers | NVIDIA根据显卡型号下载对应的驱动版本:
在这里插入图片描述

2.2. 下载 Nvidia Driver

在这里插入图片描述

wget  https://cn.download.nvidia.com/tesla/580.105.08/NVIDIA-Linux-x86_64-580.105.08.run

2.3. 安装依赖,设置权限并安装

#安装依赖
sudo apt-get install -y pkg-config xorg-dev make gcc gcc+ pkg-config xorg-dev
#设置权限并安装
cd /datapool/share/drivers/
sudo chmod a+x NVIDIA-Linux-x86_64-580.105.08.run
bash NVIDIA-Linux-x86_64-580.105.08.run -no-x-check -no-nouveau-check -no-opengl-files -s -Z
#安装完成之后建议重启一次系统
reboot

具体含义如下:

  • -a 或 --accept-license: 自动接受许可协议,跳过许可协议的交互式确认。
  • -s 或 --silent: 无交互模式安装。使用这个选项时,安装过程不会显示任何提示或警告,适合在脚本中使用。
  • -q 或 --quiet: 安装过程将非常安静,几乎不输出任何内容,除非发生错误。这个选项和 -s 很相似,但通常会有更少的输出。
  • –no-kernel-module: 跳过内核模块的构建过程。这个选项适用于你已经有预先编译好的内核模块,或者你不想安装内核模块的情况下。
  • -K 或 --kernel-source-path: 指定内核源代码路径。使用此选项,如果你没有安装内核源代码并需要为自定义内核构建模块。
  • –dkms: 在安装过程中启用 DKMS(Dynamic Kernel Module Support)。启用该选项后,安装程序会配置 DKMS,使驱动程序能在内核升级时自动重新编译。
  • -x 或 --extract-only: 只提取安装文件而不进行实际安装。适用于需要手动安装或查看文件的场景。
  • --no-x-check: 不检查当前系统是否正在运行 X 服务器(即图形界面)。在没有图形界面的情况下,你可以使用此选项来跳过 X 服务器检查。
  • –no-nouveau-check: 跳过 Nouveau 驱动程序检查。Nouveau 是一个开源的 NVIDIA 驱动程序,在安装 NVIDIA 官方驱动之前,通常需要卸载或禁用 Nouveau 驱动程序。这个选项会跳过这个步骤。
  • –no-drm: 禁用 Direct Rendering Manager(DRM)。通常,NVIDIA 驱动会启用 DRM 来提高图形性能。这个选项禁用该功能。
  • --disable-nouveau: 该选项用于在安装过程中禁用 Nouveau 驱动。这是安装 NVIDIA 驱动时常用的一个选项,确保不会发生冲突。
  • -h 或 --help: 显示帮助信息,列出所有可用选项和参数。

3. 显卡驱动检查

在安装了显卡驱动的情况下,用 nvidia-smi 查看支持的CUDA最高版本
在这里插入图片描述

CUDA版本最高支持到CUDA Version: 13.0,向下兼容。

4. 开启 GPU 持久模式

GPU驱动内存常驻模式,也称为GPU驱动持久模式, 在NVIDIA GPU中指的是持久性模式(Persistence Mode),而不是持久性内存。它是一种用于优化GPU性能的设置,使 NVIDIA GPU 驱动在空闲时保持加载状态,避免每次使用时重新初始化,从而减少启动延迟并提高性能。

主要用于需要频繁调用GPU的任务场景,例如深度学习训练。

开启 Persistence Mode 后则可实现:

4.1 查询是否开启持久方法:

nvidia-smi -q | grep "Persistence Mode"

或者:
在这里插入图片描述

4.2 临时切换持久方法:

# 方法1:
# 1:启用持久模式。
# 0:禁用持久模式。
nvidia-smi -pm 1
# 方法2:
/usr/bin/nvidia-persistenced  --persistence-mode

4.3 开机自动开启持久方法:

cd /usr/share/doc/NVIDIA_GLX-1.0/samples/
tar -xvf nvidia-persistenced-init.tar.bz2
cd nvidia-persistenced-init/
./install.sh

4.4 查看持久状态是否正常:

#检查状态是否正常
systemctl status nvidia-persistenced.service

三、NVIDIA Fabric Manager 部署

1. 什么是 NVIDIA Fabric Manager

NVIDIA Fabric Manager 是用于管理 NVIDIA NVSwitch 系统的核心软件组件,主要负责配置 NVSwitch 内存结构,形成一个统一的内存结构,并监控支持该结构的 NVLink。
功能如下:
1. 配置 NVSwitch 端口路由: Fabric Manager 负责在 NVSwitch 端口之间配置路由,以实现 GPU 之间的高效通信。
2. 协调 GPU 初始化: 与 GPU 驱动程序协同工作,初始化 GPU。
3. 监控 NVLink 和 NVSwitch 错误: 实时监控 NVLink 和 NVSwitch 的状态,报告错误和状态信息。
4. 支持多租户虚拟化: 在共享 NVSwitch 和 vGPU 多租户模式下,Fabric Manager 提供 SDK 和 API,用于查询、激活和停用 GPU 分区。
5. 与 MIG(多实例 GPU)协同工作: 在启用 MIG 模式时,Fabric Manager 可以与 GPU 的 MIG 实例配合,确保在禁用 MIG 模式后恢复 NVLink 的点对点通信能力。

详细介绍参考官网

2. NVIDIA Fabric Manager 安装

2.1. 查询 Fabric Manager 下载地址

查询 Fabric Manager 文件的下载地址:

https://developer.download.nvidia.cn/compute/cuda/repos/

2.2. Fabric Manager 安装

https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager_580.105.08-1_amd64.deb
dpkg -i nvidia-fabricmanager_580.105.08-1_amd64.deb

2.3. Fabric Manager 启动

# 服务随实例开机自启动
systemctl enable nvidia-fabricmanager --now
#锁定版本。防止吏新
apt-mark hold nvidia-fabricmanager-580

2.4. Fabric Manager 状态

# 执行如下命令查看Fabric Manager服务是否正常启动,回显active(running)表示启动成功。
sudo systemctl status nvidia-fabricmanager

在这里插入图片描述

服务为Active运行状态即可

四、安装 NVIDIA Container Toolkit

参考:NVIDIA Container Toolkit

这里以 ubuntu2204 为例,

1. 先安装以下步骤所需的先决条件:

sudo apt-get update && sudo apt-get install -y --no-install-recommends \
curl \
gnupg2

2. 配置生产环境代码库:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

(可选)配置存储库以使用实验性软件包:

sudo sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list

3. 从存储库更新软件包列表:

sudo apt-get update

4. 安装 NVIDIA 容器工具包:

export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.18.1-1
sudo apt-get install -y \
nvidia-container-toolkit=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
nvidia-container-toolkit-base=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
libnvidia-container-tools=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
libnvidia-container1=${NVIDIA_CONTAINER_TOOLKIT_VERSION}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1169986.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年1月档案机构公司权威推荐:档案储存机构公司、档案整理机构公司、档案数字化机构公司、电子档案机构公司、整理卷宗档案机构公司、销毁档案机构公司等选择指南,智慧管理解决方案 - 海棠依旧大

广州创科绿农数字信息技术有限公司深耕数字信息技术领域,聚焦档案管理数字化升级需求,打造“创科档案”核心业务板块,以技术创新为支撑,构建适配企业全场景的档案管理体系,助力各类组织打破传统档案管理瓶颈,实现…

Java基础补缺5:异常处理、常用工具类

Java基础补缺5:异常处理、常用工具类1)Java异常处理全面解析 Error 的出现,意味着程序出现了严重的问题,而这些问题不应该再交给 Java 的异常处理机制来处理,程序应该直接崩溃掉,比如说 OutOfMemoryError,内存溢…

基于Spring Boot的疗养院管理系统的设计与实现(11711)

有需要的同学&#xff0c;源代码和配套文档领取&#xff0c;加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码&#xff08;前后端源代码SQL脚本&#xff09;配套文档&#xff08;LWPPT开题报告&#xff09;远程调试控屏包运行 三、技术介绍 Java…

强烈安利8个AI论文工具,继续教育学生轻松搞定论文写作!

强烈安利8个AI论文工具&#xff0c;继续教育学生轻松搞定论文写作&#xff01; AI 工具如何改变论文写作的未来 在当前的学术环境中&#xff0c;越来越多的继续教育学生面临论文写作的压力。无论是撰写开题报告、撰写初稿&#xff0c;还是进行查重和降重&#xff0c;每一步都可…

基于SpringBoot的房屋交易平台的设计与实现(11712)

有需要的同学&#xff0c;源代码和配套文档领取&#xff0c;加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码&#xff08;前后端源代码SQL脚本&#xff09;配套文档&#xff08;LWPPT开题报告&#xff09;远程调试控屏包运行 三、技术介绍 Java…

专科生必看!8个降AI率工具推荐,高效降AIGC神器

专科生必看&#xff01;8个降AI率工具推荐&#xff0c;高效降AIGC神器 AI降重工具&#xff0c;让论文更自然更高效 在当前的学术写作中&#xff0c;越来越多的学生开始使用AI工具辅助写作&#xff0c;但随之而来的AIGC率过高、AI痕迹明显的问题也成为了困扰。对于专科生而言&am…

基于springboot在线课程管理系统的设计与实现(11713)

有需要的同学&#xff0c;源代码和配套文档领取&#xff0c;加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码&#xff08;前后端源代码SQL脚本&#xff09;配套文档&#xff08;LWPPT开题报告&#xff09;远程调试控屏包运行 三、技术介绍 Java…

手把手教你9款AI神器1天生成25000字论文

还在为论文的Deadline焦头烂额吗&#xff1f;从选题、查文献、搭建框架到反复修改、降重、格式调整&#xff0c;写论文仿佛是一场没有尽头的马拉松。今天&#xff0c;作为一名资深“论文斗士”&#xff0c;我将为你彻底改变这一局面。我将手把手教你&#xff0c;如何巧妙地组合…

springboot毕业设计成绩管理系统的设计与实现(11714)

有需要的同学&#xff0c;源代码和配套文档领取&#xff0c;加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码&#xff08;前后端源代码SQL脚本&#xff09;配套文档&#xff08;LWPPT开题报告&#xff09;远程调试控屏包运行 三、技术介绍 Java…

基于MATLAB的单闭环直流调速系统设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于MATLAB的单闭环直流调速系统设计(设计源文件万字报告讲解)&#xff08;支持资料、图片参考_相关定制&#xff09;_文章底部可以扫码 本设计包括设计报告&#xff0c;仿真程序&#xff0c;电气接线图。 设计要求 &#xff08;1&#xff09;该调速系统能进行平滑的速度调节&a…

即插即用系列(代码实践) | CVPR 2025 MONA:多尺度方向感知适配器——仅需5%参数,性能超越全量微调 (5% > 100%)

论文题目:5% > 100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks 应用任务:视觉识别、参数高效微调 (PEFT)、迁移学习 核心模块:MONA (Multi-Scale Orientation-Aware Noise-Reduction Adapter) 摘要: 本文提取自 2024年最新热门论…

基于MATLAB的IIR FIR滤波器的设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于MATLAB的IIR FIR滤波器的设计(设计源文件万字报告讲解)&#xff08;支持资料、图片参考_相关定制&#xff09;_文章底部可以扫码 以及音频去噪功能的实现&#xff0c;包括对滤波器函数进行时频域分析&#xff0c;对音频进行加高频噪声或高斯噪声&#xff0c;对加噪音频进行…

VP引导定位软件-定位纠偏(不带角度)

VP引导定位软件-定位纠偏&#xff08;不带角度&#xff09;// 定位模式if(GlobalParamters.SoftModel1){// 一 获取圆的中心AlgorithmService.Instance.DetectCircle(info.Image, out double ImageX, out double ImageY);// 二 获取目标位置TargetLoaction targetLoaction (Ta…

全网最全继续教育AI论文网站TOP8:写论文不再难

全网最全继续教育AI论文网站TOP8&#xff1a;写论文不再难 2026年继续教育AI论文写作工具测评&#xff1a;为何值得一看 在当前学术环境日益严格的背景下&#xff0c;继续教育群体在撰写论文时面临诸多挑战&#xff0c;如时间紧张、资料查找困难、格式规范不熟等。为了帮助更多…

流水线调度柔性作业车间调度(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

流水线调度 柔性作业车间调度 内容&#xff1a; 提供各类调度问题解决方案&#xff0c;包括作业车间调度JSP、柔性作业车间调度 FJSP、流水车间调度FSP、混合流水车间调度HFSP、多目标优化、动态调度、蒙特卡洛模拟、机器分配与序列排序等 算法库齐全&#xff0c;遗传算法、蚁群…

MySQL(四)表的约束

https://gitee.com/weige0304/code_learn/blob/master/%E8%AF%BE%E4%BB%B6/05-MySQL%E8%A1%A8%E7%9A%84%E7%BA%A6%E6%9D%9F.pdfhttp://表的约束

2026最新海南公司注册/深圳审计报告/境外投资备案/西安工商注册/深圳出口退税服务推荐:全生命周期赋能,这家综合服务平台值得信赖 - 品牌推荐2026

在企业发展的道路上,从公司注册、财税审计到跨境投资、出口退税,每一项专业服务都关乎企业的稳健运营与长远发展。2026年,面对日益复杂的商业环境和多元化的企业需求,瑞博集团凭借十八年的专业积淀与全国化的服务网…

VMware虚拟机下载安装教程保姆级图文详细安装步骤(附安装包)

VMware Workstation Pro 17.0.1 是款专业虚拟计算机软件,和物理电脑一样,能单独运行各类操作系统和应用程序。这款虚拟机软件功能强大,在 Windows 系统上可同时运行多个系统,像 Mac、Linux、Windows 等都能兼容安装…

2026年GEO源码作者哪家靠谱?核心源头作者推荐 - 源码云科技

2026年GEO源码作者哪家靠谱?核心源头作者推荐2026年AI搜索风口全面爆发,GEO优化已然成为企业引流获客的核心抓手,无论是传统行业转型还是互联网公司拓业,都在争抢这波红利。但市场上GEO优化服务商鱼龙混杂,源码倒…

2026年GEO源码作者哪家靠谱?核心源头作者推荐 - 源码云科技

2026年GEO源码作者哪家靠谱?核心源头作者推荐2026年AI搜索风口全面爆发,GEO优化已然成为企业引流获客的核心抓手,无论是传统行业转型还是互联网公司拓业,都在争抢这波红利。但市场上GEO优化服务商鱼龙混杂,源码倒…