GPEN如何监控GPU利用率?nvidia-smi使用技巧

GPEN如何监控GPU利用率?nvidia-smi使用技巧

本镜像基于GPEN人像修复增强模型构建,预装了完整的深度学习开发环境,集成了推理及评估所需的所有依赖,开箱即用。

1. 镜像环境说明

组件版本
核心框架PyTorch 2.5.0
CUDA 版本12.4
Python 版本3.11
推理代码位置/root/GPEN

主要依赖库:

  • facexlib: 用于人脸检测与对齐
  • basicsr: 基础超分框架支持
  • opencv-python,numpy<2.0,datasets==2.21.0,pyarrow==12.0.1
  • sortedcontainers,addict,yapf

2. 快速上手

2.1 激活环境

conda activate torch25

2.2 模型推理 (Inference)

进入代码目录并使用预置脚本进行推理测试:

cd /root/GPEN

使用下面命令进行推理测试,可以通过命令行参数灵活指定输入图片。

# 场景 1:运行默认测试图 # 输出将保存为: output_Solvay_conference_1927.png python inference_gpen.py # 场景 2:修复自定义图片 # 输出将保存为: output_my_photo.jpg python inference_gpen.py --input ./my_photo.jpg # 场景 3:直接指定输出文件名 # 输出将保存为: custom_name.png python inference_gpen.py -i test.jpg -o custom_name.png

推理结果将自动保存在项目根目录下,测试结果如下:


3. 已包含权重文件

为保证开箱即用及离线推理能力,镜像内已预下载以下模型权重(如果没有运行推理脚本会自动下载):

  • ModelScope 缓存路径~/.cache/modelscope/hub/iic/cv_gpen_image-portrait-enhancement
  • 包含内容:完整的预训练生成器、人脸检测器及对齐模型。

4. GPU资源监控:nvidia-smi 使用详解

GPEN作为基于生成对抗网络的高分辨率人像增强模型,在推理和训练过程中对GPU资源有较高需求。为了确保系统稳定运行并优化性能表现,掌握nvidia-smi工具的使用至关重要。

4.1 nvidia-smi 简介

nvidia-smi(NVIDIA System Management Interface)是NVIDIA官方提供的系统管理接口工具,可用于实时查看GPU状态、监控资源使用情况、设置功耗策略等。它是深度学习开发者日常调试和性能分析的核心工具之一。

执行以下命令即可查看当前GPU的基本信息:

nvidia-smi

输出示例:

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla V100-SXM2-32GB Off | 00000000:00:1B.0 Off | 0 | | N/A 45C P0 35W / 300W | 8124MiB / 32768MiB | 78% Default | +-------------------------------+----------------------+----------------------+

关键字段解释:

  • Temp: GPU 温度(正常范围通常为 30–85°C)
  • Memory-Usage: 显存占用情况(如 8124MiB / 32768MiB)
  • GPU-Util: GPU 利用率(表示核心计算单元活跃程度)
  • Pwr:Usage/Cap: 功耗使用与上限
  • Compute M.: 计算模式(Default 表示可同时运行多个任务)

提示:GPEN 推理阶段以显存带宽和卷积计算为主,通常表现为中高 GPU 利用率(60%-90%),若长期低于30%,可能意味着存在数据加载瓶颈或批处理过小。

4.2 实时动态监控技巧

持续刷新监控(每秒一次)
nvidia-smi -l 1

该命令每秒刷新一次GPU状态,适合观察推理过程中的资源波动。

监控特定指标(简洁输出)

如果你只关心利用率和显存,可以使用查询命令提取关键信息:

nvidia-smi --query-gpu=timestamp,name,temperature.gpu,utilization.gpu,utilization.memory,memory.used,memory.total --format=csv

输出示例:

timestamp, name, temperature.gpu, utilization.gpu [%], utilization.memory [%], memory.used [MiB], memory.total [MiB] 2025/04/05 10:23:45, Tesla V100-SXM2-32GB, 45, 78, 82, 8124, 32768

此格式便于记录日志或导入Excel进行可视化分析。

指定GPU设备监控

多卡环境下,可通过-i参数指定某块GPU:

nvidia-smi -i 0 --query-gpu=utilization.gpu,memory.used --format=csv

适用于分布式训练或多任务调度场景。

4.3 高级用法与实用技巧

设置自动采样并保存日志

将GPU使用情况持续记录到文件中,便于后续分析:

nvidia-smi -l 2 --query-gpu=timestamp,utilization.gpu,memory.used --format=csv >> gpu_usage.log &

该命令每2秒采样一次,并追加写入gpu_usage.log文件,后台运行不影响当前操作。

查看进程占用情况

当显存异常占用时,可查看具体是哪个进程导致:

nvidia-smi --query-compute-apps=pid,process_name,used_memory --format=csv

输出示例:

pid, process_name, used_memory [MiB] 12345, python, 8124

结合kill -9 <PID>可手动释放无响应进程。

限制GPU功耗(节能模式)

在非高性能需求场景下,可通过降低功耗限制来减少发热和能耗:

nvidia-smi -pl 200 # 将GPU 0 的最大功耗设为200W

恢复默认:

nvidia-smi -rg

注意:部分云平台实例不支持修改功耗策略。


5. GPEN推理性能优化建议

结合nvidia-smi监控数据,以下是针对GPEN模型的实际优化建议:

5.1 显存优化

GPEN支持多种分辨率输入(如512×512、1024×1024)。随着分辨率提升,显存消耗呈平方级增长。

分辨率显存占用(估算)
512×512~4 GB
1024×1024~12 GB
2048×2048>24 GB(需多卡或梯度检查点)

建议

  • 使用nvidia-smi观察实际显存峰值,避免OOM错误。
  • 对超高分辨率图像,考虑分块处理(tiling)策略。

5.2 批量推理调优

虽然GPEN主要用于单张人像增强,但在批量处理场景下可通过调整batch_size提升吞吐效率。

监控GPU-Util指标:

  • 若利用率长期低于50%,尝试增加batch_size
  • 若显存不足,则启用--fp16半精度推理(如支持)

示例修改推理脚本支持批量输入:

# 修改 inference_gpen.py 中的数据加载逻辑 dataloader = DataLoader(dataset, batch_size=4, shuffle=False)

再配合nvidia-smi -l 1观察整体利用率变化。

5.3 性能瓶颈诊断流程

当你发现推理速度慢或GPU利用率偏低时,推荐按以下流程排查:

  1. 运行nvidia-smi查看 GPU-Util 和 Memory-Usage
    • 若 GPU-Util < 30%,说明计算未饱和
  2. 检查CPU和磁盘I/O
    • 使用htopiotop查看是否因图像解码或预处理阻塞
  3. 启用异步数据加载
    • 在PyTorch中设置DataLoader(num_workers>0, pin_memory=True)
  4. 启用TensorRT或ONNX加速(进阶)
    • 将GPEN模型导出为ONNX格式,结合TensorRT实现低延迟推理

6. 常见问题

  • 数据集准备:官网训练数据为 FFHQ 公开数据集。本算法采用监督式的训练,因此需要事先准备好高质-低质的数据对,推荐使用RealESRGAN、BSRGAN等降质方式进行低质数据生成。
  • 训练:提供训练数据对的读取地址,设置好需要的分辨率版本(推荐512x512),调整生成器和判别器的学习率以及总epoch数,即可开始训练。

7. 参考资料

  • 官方仓库:yangxy/GPEN
  • 魔搭社区地址:iic/cv_gpen_image-portrait-enhancement

8. 引用 (Citation)

@inproceedings{yang2021gpen, title={GAN-Prior Based Null-Space Learning for Consistent Super-Resolution}, author={Yang, Tao and Ren, Peiran and Xie, Xuansong and Zhang, Lei}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2021} }

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1176132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

终极3DS CIA传输工具:3DS FBI Link让Mac用户秒传文件到任天堂3DS

终极3DS CIA传输工具&#xff1a;3DS FBI Link让Mac用户秒传文件到任天堂3DS 【免费下载链接】3DS-FBI-Link Mac app to graphically push CIAs to FBI. Extra features over servefiles and Boop. 项目地址: https://gitcode.com/gh_mirrors/3d/3DS-FBI-Link 还在为将C…

如何提升多语言文档识别效率?PaddleOCR-VL-WEB实战解析

如何提升多语言文档识别效率&#xff1f;PaddleOCR-VL-WEB实战解析 在企业数字化转型的进程中&#xff0c;自动化文档处理已成为提升运营效率的关键环节。尤其面对全球化业务场景中大量涌现的多语言、多格式文档&#xff08;如合同、发票、报告等&#xff09;&#xff0c;传统…

AiZynthFinder:化学逆合成智能规划的专业解决方案

AiZynthFinder&#xff1a;化学逆合成智能规划的专业解决方案 【免费下载链接】aizynthfinder A tool for retrosynthetic planning 项目地址: https://gitcode.com/gh_mirrors/ai/aizynthfinder 在药物研发和材料科学领域&#xff0c;寻找高效可行的合成路径是每个化学…

3分钟搞定Zotero参考文献格式配置:GB/T 7714-2015终极指南

3分钟搞定Zotero参考文献格式配置&#xff1a;GB/T 7714-2015终极指南 【免费下载链接】Chinese-STD-GB-T-7714-related-csl GB/T 7714相关的csl以及Zotero使用技巧及教程。 项目地址: https://gitcode.com/gh_mirrors/chi/Chinese-STD-GB-T-7714-related-csl 还在为论文…

Bodymovin扩展面板快速上手:从安装到动画导出的完整流程

Bodymovin扩展面板快速上手&#xff1a;从安装到动画导出的完整流程 【免费下载链接】bodymovin-extension Bodymovin UI extension panel 项目地址: https://gitcode.com/gh_mirrors/bod/bodymovin-extension Bodymovin作为After Effects动画导出的专业工具&#xff0c…

X-AnyLabeling终极指南:2025年最简单高效的AI自动标注工具

X-AnyLabeling终极指南&#xff1a;2025年最简单高效的AI自动标注工具 【免费下载链接】X-AnyLabeling Effortless data labeling with AI support from Segment Anything and other awesome models. 项目地址: https://gitcode.com/gh_mirrors/xa/X-AnyLabeling 在计算…

NewBie-image-Exp0.1与Gemma 3协同评测:多模态生成能力实战分析

NewBie-image-Exp0.1与Gemma 3协同评测&#xff1a;多模态生成能力实战分析 1. 引言&#xff1a;多模态生成的演进与挑战 随着生成式AI技术的快速发展&#xff0c;多模态模型在图像、文本和跨模态理解方面取得了显著突破。特别是在动漫图像生成领域&#xff0c;如何实现高质量…

5分钟学会使用Untrunc:轻松修复损坏视频文件的终极解决方案

5分钟学会使用Untrunc&#xff1a;轻松修复损坏视频文件的终极解决方案 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 当你精心拍摄的旅行视频、家庭聚会记录突然无…

SAM 3遥感图像测评:云端ViT-B镜像,1小时搞定千图分析

SAM 3遥感图像测评&#xff1a;云端ViT-B镜像&#xff0c;1小时搞定千图分析 你是不是也遇到过这样的问题&#xff1a;公司接了个大项目&#xff0c;要分析上千张卫星图的植被覆盖情况&#xff0c;结果本地显卡跑一张图就要9秒&#xff0c;算下来千张图得花两个多小时&#xf…

ESP32智能热敏打印机完整构建指南:从零打造你的专属蓝牙打印设备

ESP32智能热敏打印机完整构建指南&#xff1a;从零打造你的专属蓝牙打印设备 【免费下载链接】ESP32-Paperang-Emulator Make a Paperang printer with ESP32 Arduino 项目地址: https://gitcode.com/gh_mirrors/es/ESP32-Paperang-Emulator 想要打造一个属于自己的智能…

Zotero GB/T 7714-2015参考文献格式终极配置手册

Zotero GB/T 7714-2015参考文献格式终极配置手册 【免费下载链接】Chinese-STD-GB-T-7714-related-csl GB/T 7714相关的csl以及Zotero使用技巧及教程。 项目地址: https://gitcode.com/gh_mirrors/chi/Chinese-STD-GB-T-7714-related-csl 还在为论文参考文献格式反复修改…

快手视频下载神器:3分钟学会保存无水印高清视频

快手视频下载神器&#xff1a;3分钟学会保存无水印高清视频 【免费下载链接】KS-Downloader 快手无水印视频/图片下载工具 项目地址: https://gitcode.com/gh_mirrors/ks/KS-Downloader 还在为无法下载心仪的快手视频而烦恼吗&#xff1f;KS-Downloader作为一款专业的快…

Steam库存增强器:免费提升交易效率的终极指南

Steam库存增强器&#xff1a;免费提升交易效率的终极指南 【免费下载链接】Steam-Economy-Enhancer 中文版&#xff1a;Enhances the Steam Inventory and Steam Market. 项目地址: https://gitcode.com/gh_mirrors/ste/Steam-Economy-Enhancer Steam库存增强器是一款免…

3DS FBI Link:面向开发者的高效CIA文件传输解决方案

3DS FBI Link&#xff1a;面向开发者的高效CIA文件传输解决方案 【免费下载链接】3DS-FBI-Link Mac app to graphically push CIAs to FBI. Extra features over servefiles and Boop. 项目地址: https://gitcode.com/gh_mirrors/3d/3DS-FBI-Link 在3DS自制程序开发领域…

Zettlr终极指南:快速搭建个人知识管理系统

Zettlr终极指南&#xff1a;快速搭建个人知识管理系统 【免费下载链接】Zettlr Your One-Stop Publication Workbench 项目地址: https://gitcode.com/GitHub_Trending/ze/Zettlr 还在为散乱的笔记和灵感碎片而烦恼吗&#xff1f;&#x1f914; 想要一个既能写作又能管理…

智能游戏助手革命:如何用自动化工具彻底解放你的双手

智能游戏助手革命&#xff1a;如何用自动化工具彻底解放你的双手 【免费下载链接】MaaAssistantArknights 一款明日方舟游戏小助手 项目地址: https://gitcode.com/GitHub_Trending/ma/MaaAssistantArknights 你是否曾经因为重复性的游戏操作而感到疲惫&#xff1f;是否…

ChampR:终极英雄联盟智能助手,轻松提升你的游戏水平

ChampR&#xff1a;终极英雄联盟智能助手&#xff0c;轻松提升你的游戏水平 【免费下载链接】champ-r &#x1f436; Yet another League of Legends helper 项目地址: https://gitcode.com/gh_mirrors/ch/champ-r 还在为每次《英雄联盟》版本更新后的装备选择而头疼吗&…

FST ITN-ZH保姆级教程:服务器部署全流程

FST ITN-ZH保姆级教程&#xff1a;服务器部署全流程 1. 简介与背景 中文逆文本标准化&#xff08;Inverse Text Normalization, ITN&#xff09;是语音识别、自然语言处理和智能对话系统中的关键预处理环节。其核心任务是将口语化或非标准表达的中文文本转换为结构清晰、格式…

Qwen3-4B-Instruct逻辑推理测试:复杂问题解决案例

Qwen3-4B-Instruct逻辑推理测试&#xff1a;复杂问题解决案例 1. 引言 1.1 技术背景与挑战 随着大语言模型在自然语言理解、代码生成和多轮对话等任务中的广泛应用&#xff0c;对模型逻辑推理能力的要求日益提升。尤其是在无监督或弱监督场景下&#xff0c;模型能否基于有限…

从拍照到证件照:AI智能证件照工坊全流程指南

从拍照到证件照&#xff1a;AI智能证件照工坊全流程指南 1. 引言 1.1 学习目标 本文将带你全面掌握一款基于 AI 技术的智能证件照生成工具——AI 智能证件照制作工坊。通过本教程&#xff0c;你将学会如何使用该工具快速、安全地将一张普通生活照转换为符合国家标准的 1 寸或…