CAM++压力测试：高并发请求下的系统稳定性评估

1. 引言

1.1 业务场景描述

随着语音识别与声纹验证技术在金融、安防、智能客服等领域的广泛应用，对说话人验证系统的实时性和稳定性提出了更高要求。特别是在高并发访问场景下，系统能否保持低延迟、高可用成为衡量其工程价值的关键指标。

CAM++ 是一个基于深度学习的中文说话人验证系统，由开发者“科哥”基于达摩院开源模型speech_campplus_sv_zh-cn_16k-common构建并二次开发为 WebUI 形式，支持本地部署与快速调用。该系统能够提取音频的 192 维嵌入向量（Embedding），并通过余弦相似度判断两段语音是否来自同一说话人。

然而，在实际生产环境中，单一用户测试无法反映真实负载情况。本文将围绕CAM++ 系统在高并发请求下的性能表现展开压力测试，评估其响应能力、资源占用及稳定性边界，为后续优化提供数据支撑。

1.2 测试目标

本次压力测试旨在回答以下问题： - 系统在多大并发量下仍能稳定运行？ - 平均响应时间随并发增长的变化趋势如何？ - CPU、内存等系统资源使用是否合理？ - 是否存在瓶颈模块或潜在错误？

通过量化分析，形成可复用的压力测试方法论，并提出针对性优化建议。

2. 技术方案选型

2.1 压力测试工具选择

我们选用Apache JMeter作为主要测试工具，原因如下：

工具	优势	局限
Apache JMeter	支持 HTTP 协议、图形化界面、结果可视化、可扩展性强	资源消耗较高，需独立部署
wrk	高性能、轻量级、适合命令行自动化	缺乏详细报告生成能力
Locust	Python 编写脚本灵活，支持分布式	学习成本略高

最终选择 JMeter 的核心原因是其具备完整的请求构建、线程控制、聚合报告、响应时间分布图等功能，便于非编程背景人员操作，且支持导出 CSV 数据用于后期分析。

2.2 测试环境配置

服务端环境

操作系统：Ubuntu 20.04 LTS
CPU：Intel Xeon E5-2680 v4 @ 2.4GHz（16核）
内存：64GB DDR4
GPU：NVIDIA T4（16GB显存）
部署方式：Docker 容器化运行
访问地址：http://localhost:7860

客户端环境

测试机器：MacBook Pro M1, 16GB RAM
JMeter 版本：5.6.2
测试接口：/verify_speaker（模拟上传两个音频文件进行比对）

测试音频素材

格式：WAV
采样率：16kHz
时长：约 5 秒
文件大小：~90KB（单个）

3. 实现步骤详解

3.1 准备测试脚本

首先在 JMeter 中创建测试计划，包含以下组件：

线程组（Thread Group）
控制并发用户数，设置 Ramp-up 时间（启动间隔）、循环次数。
HTTP 请求默认值
设置服务器名称或 IP：localhost，端口：7860
HTTP 请求取样器（Sampler）
配置 POST 请求路径/verify_speaker，参数如下：
audio1: 上传第一个音频文件
audio2: 上传第二个音频文件
threshold: 固定为0.31
save_embedding:true
save_result:true
HTTP 头管理器
添加Content-Type: multipart/form-data，确保文件上传正确解析。
监听器（Listeners）
查看结果树（调试用）
聚合报告（Aggregate Report）
用法概要图（Summary Report）
响应时间图（Response Times Graph）

3.2 启动 CAM++ 服务

cd /root/speech_campplus_sv_zh-cn_16k bash scripts/start_app.sh

等待日志输出显示Running on local URL: http://localhost:7860后，确认服务已就绪。

3.3 执行压力测试

分阶段执行不同并发级别的测试，每轮持续运行 5 分钟，记录关键指标。

测试策略设计

并发用户数	Ramp-up 时间（秒）	循环次数	目标
10	10	无限	基准性能
20	20	无限	观察拐点
50	50	无限	接近极限
100	100	无限	极限压测

注意：避免一次性启动全部线程，防止瞬时冲击导致误判。

4. 核心代码解析

虽然 CAM++ 本身是封装好的模型服务，但为了实现自动化测试，我们编写了 Python 脚本模拟客户端批量请求，辅助验证 JMeter 结果。

import requests import time import threading from concurrent.futures import ThreadPoolExecutor # 全局变量 URL = "http://localhost:7860/verify_speaker" AUDIO1_PATH = "test_audio/speaker1_a.wav" AUDIO2_PATH = "test_audio/speaker1_b.wav" HEADERS = {} def send_request(): files = { 'audio1': open(AUDIO1_PATH, 'rb'), 'audio2': open(AUDIO2_PATH, 'rb') } data = { 'threshold': 0.31, 'save_embedding': 'true', 'save_result': 'true' } try: start_time = time.time() response = requests.post(URL, files=files, data=data) end_time = time.time() if response.status_code == 200: result = response.json() print(f"✅ 成功 | 耗时: {end_time - start_time:.2f}s | 相似度: {result.get('相似度分数')}") else: print(f"❌ 失败 | 状态码: {response.status_code}") except Exception as e: print(f"⚠️ 请求异常: {str(e)}") finally: for f in files.values(): f.close() # 多线程并发测试 def run_concurrent_test(thread_count): print(f"\n🚀 开始 {thread_count} 并发测试...") with ThreadPoolExecutor(max_workers=thread_count) as executor: futures = [executor.submit(send_request) for _ in range(thread_count)] for future in futures: future.result() if __name__ == "__main__": # 测试不同并发等级 for n in [10, 20, 50]: run_concurrent_test(n) time.sleep(30) # 每轮之间冷却30秒

代码说明

使用requests模拟表单提交，携带两个音频文件。
ThreadPoolExecutor实现多线程并发，逼近真实高并发场景。
输出每次请求耗时与结果状态，便于统计成功率与平均延迟。
在每轮测试后加入冷却时间，避免系统过热影响下一轮测试。

5. 实践问题与优化

5.1 遇到的问题

问题一：高并发下出现连接超时

当并发达到 50 以上时，部分请求返回Connection Timeout或500 Internal Server Error。

排查过程： - 查看服务端日志：发现 Gradio 默认使用单进程 Flask 服务器，处理能力有限。 - 使用htop观察 CPU 利用率：接近 100%，GPU 利用率仅 60%。 - 分析原因：前端 Web 服务器成为瓶颈，而非模型推理本身。

问题二：内存泄漏风险

长时间运行后，Python 进程内存占用持续上升，从初始 2.1GB 增至 3.8GB。

定位方法： - 使用tracemalloc模块追踪内存分配。 - 发现每次请求后未及时释放临时张量。

5.2 优化措施

优化一：更换高性能 WSGI 服务器

将 Gradio 默认服务器替换为Gunicorn + Gevent组合，提升并发处理能力。

# 修改启动脚本 run.sh gunicorn -k gevent -w 4 -b 0.0.0.0:7860 app:demo --timeout 60 --max-requests 1000

参数说明： --k gevent：启用协程模式，提高 I/O 并发 --w 4：启动 4 个工作进程（根据 CPU 核心数调整） ---timeout 60：防止单个请求卡死 ---max-requests 1000：每处理 1000 次请求重启工作进程，缓解内存累积

优化二：添加请求队列限流

引入 Redis 作为任务队列缓冲层，防止突发流量击穿系统。

from redis import Redis import rq redis_conn = Redis(host='localhost', port=6379) queue = rq.Queue('sv_queue', connection=redis_conn) # 异步处理验证任务 job = queue.enqueue(predict_speaker_verification, audio1_path, audio2_path)

优点： - 平滑流量峰值 - 支持失败重试机制 - 易于横向扩展 worker 数量

优化三：模型推理加速

启用 ONNX Runtime 替代 PyTorch 推理，降低延迟。

import onnxruntime as ort # 加载 ONNX 模型 session = ort.InferenceSession("campplus_sv.onnx") # 推理输入 inputs = {session.get_inputs()[0].name: feature_input} outputs = session.run(None, inputs) embedding = outputs[0]

实测效果： - 推理速度提升约 35% - 内存占用下降 20%