DeepSeek-R1-Distill-Qwen-1.5B监控告警：Prometheus接入实战

1. 引言

1.1 业务场景描述

随着大模型在企业级应用中的广泛部署，对模型服务的稳定性、响应性能和资源消耗进行实时监控变得至关重要。DeepSeek-R1-Distill-Qwen-1.5B 是基于 DeepSeek-R1 强化学习数据蒸馏技术优化的 Qwen 1.5B 推理模型，具备出色的数学推理、代码生成与逻辑推理解题能力，已在多个 AI 助手和自动化编程场景中落地。

然而，在高并发请求下，GPU 显存占用、推理延迟上升、服务异常中断等问题频发，传统日志排查方式效率低下。为实现可观测性提升，亟需构建一套自动化监控告警体系。

本文将详细介绍如何将DeepSeek-R1-Distill-Qwen-1.5B 的 Web 服务接入 Prometheus 监控系统，结合 Grafana 实现可视化，并配置告警规则，帮助运维团队及时发现并响应服务异常。

1.2 现有方案痛点

当前服务通过 Gradio 提供 Web 接口，但缺乏以下关键能力：

无结构化指标暴露，无法量化性能趋势
GPU 资源使用情况不可见
请求延迟、错误率等核心 SLO 指标缺失
故障发生后依赖人工查日志，响应滞后

1.3 本文方案预告

本文提出一种轻量级、低侵入的监控集成方案：

在现有app.py中嵌入 Prometheus Python 客户端（prometheus_client）
自定义暴露模型推理相关的业务指标
配置 Prometheus 抓取端点
使用 Alertmanager 设置阈值告警
最终实现“指标采集 → 可视化 → 告警通知”闭环

2. 技术方案选型

2.1 为什么选择 Prometheus？

方案	优势	劣势	适用性
Prometheus + Node Exporter	原生支持 Pull 模型，生态完善，适合容器化环境	存储周期较短	✅ 高度契合
Zabbix	传统主机监控强，支持主动/被动检查	对云原生支持弱	❌ 不推荐
ELK (Elasticsearch + Logstash + Kibana)	日志分析能力强	成本高，复杂度高	⚠️ 辅助使用
Datadog / New Relic	商业产品，开箱即用	成本高昂，依赖外网	❌ 不适用

结论：Prometheus 具备良好的可扩展性、强大的查询语言（PromQL）和活跃的社区生态，是开源环境下最佳选择。

2.2 核心监控维度设计

我们定义如下四类核心监控指标：

类别	指标名称	说明
请求性能	`deepseek_request_duration_seconds`	请求处理耗时（直方图）
请求状态	`deepseek_requests_total{status}`	总请求数，按成功/失败分类
资源使用	`deepseek_gpu_memory_used_bytes`	GPU 显存占用（需 NVIDIA SMI 支持）
模型行为	`deepseek_tokens_generated_total`	输出 token 数统计

3. 实现步骤详解

3.1 安装依赖

首先安装 Prometheus 客户端库：

pip install prometheus_client

建议添加到requirements.txt或 Dockerfile 中：

RUN pip3 install torch transformers gradio prometheus_client

3.2 修改 app.py 暴露指标端点

在原有app.py基础上，新增/metrics接口用于 Prometheus 抓取。

修改后的`app.py`核心代码：

import time import subprocess import torch from transformers import AutoModelForCausalLM, AutoTokenizer import gradio as gr from prometheus_client import start_http_server, Counter, Histogram, Gauge # ----------------------------- # Prometheus 指标定义 # ----------------------------- # 请求计数器 REQUEST_COUNTER = Counter( 'deepseek_requests_total', 'Total number of inference requests', ['status'] # success, error ) # 请求延迟直方图 REQUEST_DURATION = Histogram( 'deepseek_request_duration_seconds', 'Request processing duration in seconds', buckets=(0.1, 0.5, 1.0, 2.0, 5.0, 10.0, float('inf')) ) # GPU 显存使用量（Gauge） GPU_MEMORY_USED = Gauge( 'deepseek_gpu_memory_used_bytes', 'Current GPU memory used by the model' ) # 生成 Token 数统计 TOKENS_GENERATED = Counter( 'deepseek_tokens_generated_total', 'Total number of tokens generated' ) # ----------------------------- # 模型加载与推理逻辑 # ----------------------------- MODEL_PATH = "/root/.cache/huggingface/deepseek-ai/DeepSeek-R1-Distill-Qwen-1___5B" DEVICE = "cuda" if torch.cuda.is_available() else "cpu" tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained(MODEL_PATH).to(DEVICE) def update_gpu_metrics(): """更新 GPU 显存使用情况""" try: result = subprocess.run([ 'nvidia-smi', '--query-gpu=memory.used', '--format=csv,noheader,nounits' ], capture_output=True, text=True) memory_mb = int(result.stdout.strip()) GPU_MEMORY_USED.set(memory_mb * 1024 * 1024) # 转换为 bytes except Exception as e: print(f"Failed to get GPU memory: {e}") def predict(prompt, max_tokens=2048, temperature=0.6, top_p=0.95): start_time = time.time() try: inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE) outputs = model.generate( **inputs, max_new_tokens=max_tokens, temperature=temperature, top_p=top_p, do_sample=True ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) # 统计生成 token 数 gen_tokens = len(outputs[0]) - len(inputs["input_ids"][0]) TOKENS_GENERATED.inc(gen_tokens) # 更新请求计数 REQUEST_COUNTER.labels(status="success").inc() return response except Exception as e: REQUEST_COUNTER.labels(status="error").inc() return f"Error: {str(e)}" finally: # 记录请求耗时 REQUEST_DURATION.observe(time.time() - start_time) # 更新 GPU 指标 if DEVICE == "cuda": update_gpu_metrics() # ----------------------------- # 启动 Prometheus 指标服务器（端口 8000） # ----------------------------- if __name__ == "__main__": # 在后台启动 Prometheus 指标服务 start_http_server(8000) print("Prometheus metrics server started at http://0.0.0.0:8000/metrics") # 构建 Gradio 界面 demo = gr.Interface( fn=predict, inputs=[ gr.Textbox(label="输入提示"), gr.Slider(minimum=1, maximum=2048, value=2048, label="最大输出长度"), gr.Slider(minimum=0.1, maximum=1.0, value=0.6, label="Temperature"), gr.Slider(minimum=0.1, maximum=1.0, value=0.95, label="Top-P") ], outputs="text", title="DeepSeek-R1-Distill-Qwen-1.5B 推理服务", description="支持数学推理、代码生成与逻辑推理任务" ) demo.launch(server_name="0.0.0.0", server_port=7860)

说明： - 新增start_http_server(8000)启动独立指标服务 - 所有关键操作均被封装进指标记录逻辑 - 使用nvidia-smi获取 GPU 显存信息（需确保环境支持）

3.3 验证指标暴露

启动服务后访问：

http://<your-server>:8000/metrics

应能看到类似输出：

# HELP deepseek_requests_total Total number of inference requests # TYPE deepseek_requests_total counter deepseek_requests_total{status="success"} 3 deepseek_requests_total{status="error"} 0 # HELP deepseek_request_duration_seconds Request processing duration in seconds # TYPE deepseek_request_duration_seconds histogram deepseek_request_duration_seconds_sum 2.345 deepseek_request_duration_seconds_count 3 # HELP deepseek_gpu_memory_used_bytes Current GPU memory used by the model # TYPE deepseek_gpu_memory_used_bytes gauge deepseek_gpu_memory_used_bytes 4508876800.0 # HELP deepseek_tokens_generated_total Total number of tokens generated # TYPE deepseek_tokens_generated_total counter deepseek_tokens_generated_total 187

3.4 配置 Prometheus 抓取任务

编辑prometheus.yml添加 job：

scrape_configs: - job_name: 'deepseek-qwen-1.5b' static_configs: - targets: ['<your-server-ip>:8000'] scrape_interval: 15s scrape_timeout: 10s

重启 Prometheus 服务：

systemctl restart prometheus

3.5 配置告警规则

在rules/deepseek-alerts.yml中定义告警规则：

groups: - name: deepseek-inference-alerts rules: - alert: HighInferenceLatency expr: histogram_quantile(0.95, sum(rate(deepseek_request_duration_seconds_bucket[5m])) by (le)) > 5 for: 2m labels: severity: warning annotations: summary: "高推理延迟 (instance {{ $labels.instance }})" description: "95% 的请求延迟超过 5 秒" - alert: ModelServiceDown expr: up{job="deepseek-qwen-1.5b"} == 0 for: 1m labels: severity: critical annotations: summary: "模型服务离线" description: "Prometheus 无法抓取指标端点" - alert: HighGPUMemoryUsage expr: deepseek_gpu_memory_used_bytes / (1024*1024*1024) > 18 # 假设显卡为 24GB for: 5m labels: severity: warning annotations: summary: "GPU 显存使用过高" description: "显存已使用超过 18GB，可能影响稳定性"

加载规则文件并在 Prometheus Web UI 中验证。

4. 实践问题与优化

4.1 实际遇到的问题

问题	原因	解决方法
`nvidia-smi`权限拒绝	容器未挂载设备或权限不足	添加`--privileged`或正确配置 device plugin
指标端口冲突	多实例部署时端口固定	使用环境变量动态设置`METRICS_PORT`
高频抓取导致性能下降	抓取间隔过短	调整`scrape_interval`至 15s~30s
指标丢失（进程重启）	未持久化	结合 Pushgateway（非推荐），更建议保证服务稳定

4.2 性能优化建议

异步更新 GPU 指标：避免阻塞主推理流程python import threading def async_update_gpu(): threading.Thread(target=update_gpu_metrics, daemon=True).start()
限制标签基数：避免创建过多时间序列
不建议按prompt内容打标签
可按model_version,device_type分类
启用压缩传输：在反向代理层开启 Gzip
合理设置直方图 bucket：聚焦常见延迟区间（如 0.1~10s）