Qwen1.5如何监控资源？CPU占用率实时查看方法详解

1. 背景与需求分析

随着大模型在边缘设备和低算力环境中的广泛应用，轻量级模型的部署与资源管理成为工程落地的关键环节。Qwen1.5-0.5B-Chat 作为通义千问系列中参数量最小（仅5亿）的对话模型，凭借其低内存占用和良好的语义理解能力，特别适合在无GPU支持的服务器或本地开发机上运行。

然而，在实际部署过程中，开发者常面临一个核心问题：如何实时掌握模型服务对系统资源的消耗情况？尤其是CPU使用率的变化趋势，直接关系到服务响应速度、并发能力和系统稳定性。本文将围绕基于 ModelScope 部署的 Qwen1.5-0.5B-Chat 服务，详细介绍多种 CPU 占用率监控方案，涵盖命令行工具、Python 内部监控及 WebUI 集成方式，帮助开发者实现精细化资源观测与性能调优。

2. 系统级CPU监控：从操作系统层面获取全局视图

2.1 使用 top 命令动态查看进程资源占用

top是 Linux/Unix 系统中最常用的实时系统监控工具之一，能够展示所有正在运行的进程及其 CPU、内存使用情况。

top -p $(pgrep -f "python.*flask")

该命令通过pgrep定位 Flask 相关的 Python 进程 ID，并将其传递给top进行专注监控。输出示例如下：

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 12345 user 20 0 856789k 1.830g 3456 R 68.2 23.1 2:15.32 python app.py

重点关注%CPU列，它表示当前进程的 CPU 占用百分比。当用户发起对话请求时，可观察到该值显著上升；请求结束后回落至接近 0%，说明模型推理具有明显的“脉冲式”计算特征。

提示：按Shift + P可按 CPU 使用率排序，快速定位高负载进程。

2.2 使用 htop 提供更友好的交互界面

相比top，htop提供彩色界面、垂直滚动和鼠标操作支持，更适合长时间监控。

安装并启动 htop：

sudo apt install htop -y htop

在列表中查找包含python和flask的进程，观察其 CPU 使用曲线。可通过F4输入关键字过滤进程，提升查找效率。

2.3 使用 ps 命令进行快照式采样

若需编写脚本定期采集数据，推荐使用ps命令进行非交互式查询：

while true; do ps -eo pid,ppid,cmd,%cpu,%mem --sort=-%cpu | grep "python.*flask" | head -n 5 sleep 2 done

此脚本每 2 秒输出一次 CPU 占用最高的前五个相关进程信息，可用于生成日志文件供后续分析。

3. Python层资源监控：在代码中集成实时指标采集

3.1 利用 psutil 库获取进程级资源数据

psutil是一个跨平台的 Python 系统与进程监控库，可在应用内部精确测量自身资源消耗。

首先安装依赖：

pip install psutil

然后在 Flask 主程序中添加监控逻辑：

import psutil import threading import time from flask import Flask, request, jsonify app = Flask(__name__) # 全局变量存储最新CPU使用率 latest_cpu_percent = 0.0 process = psutil.Process() def monitor_cpu(): global latest_cpu_percent while True: try: # 获取单个进程的CPU使用率（间隔1秒） cpu_percent = process.cpu_percent(interval=1) latest_cpu_percent = cpu_percent except Exception as e: print(f"CPU monitoring error: {e}") break # 启动后台监控线程 threading.Thread(target=monitor_cpu, daemon=True).start() @app.route('/metrics/cpu', methods=['GET']) def get_cpu_usage(): return jsonify({ 'cpu_percent': round(latest_cpu_percent, 2), 'num_threads': process.num_threads(), 'status': process.status() })

上述代码实现了： - 后台线程持续采集cpu_percent- 暴露/metrics/cpu接口供外部轮询 - 返回结构化 JSON 数据便于前端展示

3.2 在推理函数中嵌入资源打点

为了关联“用户请求”与“资源消耗”，可在模型推理前后插入资源记录点：

from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_name = "qwen/Qwen1.5-0.5B-Chat" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map=None) # CPU模式 @app.route('/chat', methods=['POST']) def chat(): data = request.json input_text = data.get("text", "") # 推理前资源状态 start_cpu = process.cpu_percent() start_memory = process.memory_info().rss / 1024 / 1024 # MB start_time = time.time() inputs = tokenizer(input_text, return_tensors="pt") with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=128) response = tokenizer.decode(outputs[0], skip_special_tokens=True) # 接收后资源状态 end_time = time.time() end_cpu = process.cpu_percent() end_memory = process.memory_info().rss / 1024 / 1024 print(f"[Resource] Inference took {end_time - start_time:.2f}s") print(f"[Resource] CPU usage: {start_cpu:.1f}% → {end_cpu:.1f}%") print(f"[Resource] Memory: {start_memory:.1f}MB → {end_memory:.1f}MB") return jsonify({"response": response})

这种方式有助于识别高负载请求，为限流、降级等策略提供依据。

4. WebUI集成：可视化CPU使用趋势

4.1 构建简易前端监控面板

在现有 Flask WebUI 中新增一个“监控”标签页，通过 AJAX 定期拉取/metrics/cpu接口数据，并绘制折线图。

HTML 片段示例（index.html）：

<div id="monitor-tab"> <h3>CPU Usage Monitor</h3> <canvas id="cpuChart" width="400" height="150"></canvas> </div> <script src="https://cdn.jsdelivr.net/npm/chart.js"></script> <script> let cpuChart; const ctx = document.getElementById('cpuChart').getContext('2d'); cpuChart = new Chart(ctx, { type: 'line', data: { labels: Array(20).fill(''), datasets: [{ label: 'CPU Usage (%)', data: Array(20).fill(0), borderColor: 'rgb(75, 192, 192)', tension: 0.1, fill: false }] }, options: { responsive: true, animation: false } }); // 每3秒更新一次数据 setInterval(() => { fetch('/metrics/cpu') .then(res => res.json()) .then(data => { const newData = data.cpu_percent; cpuChart.data.labels.push(new Date().toLocaleTimeString()); cpuChart.data.datasets[0].data.push(newData); if (cpuChart.data.labels.length > 20) { cpuChart.data.labels.shift(); cpuChart.data.datasets[0].data.shift(); } cpuChart.update(); }); }, 3000); </script>

4.2 效果说明

该图表可实时反映模型服务的 CPU 占用波动。典型场景如下： -空闲状态：曲线平稳贴近 0% -单次提问：出现短暂尖峰（如 60%-80%），持续数秒 -连续提问：形成连续波峰，若重叠严重则可能预示系统过载

建议：当平均 CPU 使用率持续超过 70% 时，应考虑限制并发请求数或升级硬件配置。

5. 性能优化建议与最佳实践

5.1 控制并发以降低CPU峰值压力

由于 Qwen1.5-0.5B-Chat 使用 CPU 推理，多任务并行会显著增加上下文切换开销。建议采用以下措施：

启用请求队列机制：使用queue.Queue实现 FIFO 请求处理
限制最大并发数：设置全局锁或信号量（如threading.Semaphore(2)）
异步非阻塞设计：结合Flask-SocketIO或FastAPI提升吞吐量

5.2 合理选择精度以平衡速度与资源

虽然当前使用 float32 精度保证兼容性，但可尝试以下优化：

精度类型	内存占用	推理速度	是否推荐
float32	~1.8GB	基准	✅ 初始部署
float16	~1.0GB	+40%	⚠️ 需支持
int8	~600MB	+80%	❌ 当前不支持

未来可通过optimum库探索量化压缩方案。

5.3 设置系统级资源限制（cgroups）

对于生产环境，建议使用 cgroups 或 systemd 限制服务资源上限，防止失控：

# /etc/systemd/system/qwen.service [Service] CPUQuota=80% MemoryLimit=2G

这样即使发生异常循环调用，也不会拖垮整个主机系统。

6. 总结

本文系统介绍了在基于 ModelScope 部署的 Qwen1.5-0.5B-Chat 对话服务中，如何全方位监控 CPU 资源使用情况。我们从三个层次展开：

系统层：利用top、htop、ps等命令行工具快速诊断整体负载；
应用层：借助psutil在 Python 中实现细粒度资源采集，并暴露监控接口；
表现层：通过 WebUI 集成 Chart.js 实现实时可视化，提升可观测性。

最终形成了“底层采集 → 中间传输 → 上层展示”的完整监控闭环。这些方法不仅适用于 Qwen1.5 系列小模型，也可推广至其他基于 Transformers 架构的 CPU 推理服务。

掌握资源监控能力，是保障 AI 服务稳定运行的第一步。在此基础上，开发者可进一步构建告警系统、自动扩缩容机制，迈向智能化运维的新阶段。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/1161137.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！