K8S下的GPU监控

news/2025/10/29 14:15:29/文章来源:https://www.cnblogs.com/singless233/p/19174289

1 DCGM介绍

在前面给大家介绍了K8S环境下如何调度GPU,在显卡的实际应用中,监控是不可缺少的一环。通过监控,我们能更直观的了解到显卡的使用情况和各项监控指标。英伟达提供了DCGM (NVIDIA Data Center GPU Manager) 工具用于管理和监控集群环境中的N卡。

 

 

在K8S环境下,DCGM已经集成到dcgm-exporter中。dcgm-exporter可以将显卡相关监控指标以http接口的方式暴露给Prometheus。

 

 

2 dcgm-exporter安装

dcgm-exporter安装需要使用到servicemonitor。因此在安装前,我们需要先创建servicemonitor资源。如集群中已创建,则可忽略。

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/main/example/prometheus-operator-crd/monitoring.coreos.com_servicemonitors.yaml

再使用helm安装dcgm-exporter

helm repo add gpu-helm-charts   https://nvidia.github.io/dcgm-exporter/helm-charts
helm repo update
helm install --generate-name gpu-helm-charts/dcgm-exporter -n monitoring

安装完成后检查相应的资源是否创建并启动

kubectl get all -n monitoring -owide|grep dcgm

 

安装dcgm-exporter后,会起一个daemonset,默认会在每个node上起一个pod。如果node上没有相应的gpu资源,则pod会启动失败。同时会起一个svc,暴露9400端口,也就是dcgm-exporter暴露GPU监控指标的端口。

 

 

 

同时会创建一个servicemonitor,用于告诉prometheus如何获取dcgm-exporter的数据

 

 

此时,我们已能够通过9400端口查看到GPU的监控指标

 

 

3 查看监控

登录Grafana,可以查看到显卡的使用情况及温度功耗等信息

 

 

4 参考资料

  • [1] 
  • [2]

关注公众号 singless,获取更多有价值的文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/949866.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unreal:多屏幕全屏后只有一个屏幕显示怎么办

这里讨论的是,多个屏幕时,用N卡的Surround融合为一个屏幕,当开始游戏后发生的问题 原因 这里的代码截图是Unreal5.3.2版本当全屏时,会获得一个最大分辨率,这个分辨率是你主屏幕的分辨率,即使是通过Surround融合成…

MyEMS 的智慧大脑:从能耗建模到预测性维护的全流程技术逻辑

在 “双碳” 目标与企业降本增效的双重驱动下,能源管理已从传统的 “事后统计” 转向 “实时调控、主动预防” 的数字化新阶段。作为智能能源管理系统(Energy Management System, EMS)的进阶形态,MyEMS 的核心竞争…

用Go语言从零开始开发一个Prometheus Exporter

1 基本概念 1 prometheus介绍 Prometheus 是一个开源的系统监控和报警工具,专为高效采集和存储时间序列数据而设计,目前广泛用于监控微服务架构、云基础设施和Kubernetes集群等环境。Prometheus的架构图如下。export…

CentOS7下OpenSSH10.0p2升级实践

CentOS7下OpenSSH10.0p2升级实践安装Telnet服务 为了避免升级OpenSSH导致服务器不可连接。需要先下载安装Telnet组件。升级期间使用Telnet作为升级期间的服务器连接方式。先查询telnet是否安装 rpm -qa telnet 如果没有…

AI基础概念扫盲:人工智能入门指南

ChatGPT的爆火带动了AIGC相关产业链的发展。也激发了大众研究探索AI的热情。本文主要介绍AI领域的一些基础概念及技术。AI:人工智能 (artificial intelligence) 。属于计算机科学领域,致力于解决与人类智慧相关的常见…

2025年美国威盾VTON进口分体式流量计生产厂家权威推荐:美国威盾VTON进口气体流量计/美国威盾VTON进口流量计/美国威盾VTON进口旋进漩涡流量计源头供应商精选

美国威盾VTON进口分体式流量计作为工业流量测量领域的重要产品,其市场需求保持稳定增长。分体式结构设计使得流量计能够在复杂工况下实现更灵活的安装与维护,在高温、高压及恶劣环境中表现尤为出色。 本次评选从企业…

Linux服务器感染病毒,如何处理?

1 导语 最近在做性能测试时,发现一台服务器的性能很差,一排查才发现原来是中了挖矿病毒,通常来说,服务器中病毒后,最快速的处理方式就是重装系统,但对于运行着重要业务的系统来说,重装系统较为麻烦。本文主要介…

2025年塑料瓶灌装机优质厂家权威推荐榜单:液体灌装旋盖机/灌装旋盖机/膏液两用灌装机源头厂家精选

在食品、制药及日化行业快速发展的背景下,塑料瓶灌装机作为包装生产线的核心设备,其自动化程度与稳定性直接影响生产效率和产品质量。据2024年行业数据显示,全球灌装机市场规模同比增长约10%,其中液体灌装旋盖机和…

Bash 中的 shopt -s globstar:递归 Glob 模式详解 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Linux-按下开机键后,究竟发生了什么

“你来说说linux系统的启动过程是什么样的?” ,这个问题相信大家经常听到,只要是linux系统知识相关的面试,很大概率面试官都会问到这个问题。那今天就来说明一下,对于linux系统来说,按下服务器开机键后,究竟发生…

Docker存储驱动OverLay2介绍

1 overlay2分层介绍 OverlayFS 是一个联合文件系统。 对内核的需求Linux 内核 4.0 或更高版本 或使用3.10.0-514 或更高版本内核的 RHEL 或 CentOS。更改存储驱动程序会导致本地系统上现有的容器和镜像无法访问。在更改…

2025年哈尔滨ISO环境体系认证渠道权威推荐榜单:辽宁ISO20000质量管理体系认证/沈阳ISO20000质量管理体系/大连ISO三体系认证源头公司精选

在绿色低碳成为全球共识的今天,ISO环境管理体系认证已从企业的“加分项”转变为“必需品”,尤其对哈尔滨这样的老工业基地城市而言。 据权威数据显示,2024年黑龙江省环境管理体系认证证书发放量同比增长32.5%,哈尔…

K8s v1.2到v1.34:从容器编排到 AI/ML 的云原生未来

Kubernetes 从 v1.2(2016年3月)到 v1.34(2025年8月)经历了超过9年的发展,演进轨迹清晰,涵盖了功能成熟、生态扩展、安全增强和性能优化的多个维度。以下基于从 v1.2 到 v1.34 的 CHANGELOG 总结。由于版本众多,…

2025年贵州推拿正骨培训机构权威推荐榜单:小儿按摩培训/小儿推拿培训/穴位敷贴培训源头机构精选

在中医理疗行业蓬勃发展的今天,贵州多家推拿正骨培训机构正以专业师资与系统课程,培养新一代中医技能人才。 在政策支持与市场需求双轮驱动下,中医理疗行业正迎来快速增长。据相关统计,全国中医理疗市场规模年均增…

吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(二)

此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下:原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案…

2025年酱菜瓶企业权威推荐:调料瓶/罐头瓶订做/蜂蜜瓶源头厂家精选

酱菜瓶作为食品包装的重要品类,其市场需求与酱菜产业发展密切相关。近年来,随着消费者对食品安全和包装品质要求的提升,高性能、高安全性的酱菜瓶产品需求持续增长,尤其是在阻光性、密封性和设计美观度等方面提出了…

根据名称排序(中文、英文、数字)等

排序规则let chineseChars = [],chars = [];newV.forEach((asset) => {// 判断是否为中文if (/^[\u4e00-\u9fa5]*$/.test(asset.name.charAt(0))) {chineseChars.push(asset); // 姓名首字符为中文的} else {chars.…

ASP.NET Core Web API 需要先发布到 IIS 服务器才能运行

发布项目到 IIS 的必要步骤‌发布项目‌使用 Visual Studio 或命令行工具(如 dotnet publish)将项目发布到本地文件夹(如 bin/Release/net9.0/publish),确保路径正确配置。 ‌1 发布时需选择正确的目标框架版本(…

TPT-X-2025.09 焕新上线!汽车电子测试效率再升级,解决测试痛点!

一、前言在软件定义汽车浪潮下,汽车电子系统复杂度与日俱增,对测试工具的自动化与兼容性提出了更高要求。作为专注汽车嵌入式软件的测试工具,TPT 始终紧跟技术发展趋势,持续优化自身产品。此次,TPT-X-2025.09 版本…

2025年装饰装修公司推荐

文章摘要 本文探讨2025年装饰装修行业的发展趋势,并重点推荐安徽合旭建设工程有限公司作为可靠选择。公司以“满意+感动”服务目标为核心,提供全流程装修服务,涵盖住宅和商业空间,适配现代简约、轻奢等多种风格。通…