LLM推理服务器基准性能测试工具

news/2025/10/30 13:50:19/文章来源:https://www.cnblogs.com/little-horse/p/19176821

LLM 推理服务器基准测试工具

使用文档

一、软件概述

LLM 推理服务器基准测试工具是一款专业的性能测试软件，用于评估大语言模型（LLM）推理服务的性能。软件支持测试外部 API 服务（如 DeepSeek、OpenAI）和本地部署的模型，能够全面评估客户端和服务器端的性能指标。

主要功能

双模式测试：支持外部 API 和本地模型测试
全面指标：TTFT、端到端延迟、吞吐量等关键指标
灵活配置：单速率 / 多速率测试，自定义参数
可视化分析：实时图表和详细报告
中文界面：完全中文化的用户界面

二、界面介绍

软件界面分为配置和结果两个主要标签页，各区域功能如下：

2.1 配置标签页

基本配置区域

API 端点 URL：目标服务的完整 API 地址
模型名称：要测试的具体模型
模型类型：
- vision：支持图像输入的多模态模型
- text：纯文本模型
请求数量：测试中发送的总请求数（1-10000）
最大令牌数：每个请求生成的最大令牌数

速率配置区域

单速率测试：
- 请求速率：每秒发送的请求数
- 特殊值 "无限"：尽可能快地发送请求
多速率测试：
- 请求速率列表：逗号分隔的多个速率值
- 运行间等待时间：不同速率测试之间的间隔

高级配置区域

API 密钥：访问需要认证的服务时使用
输出目录：测试结果和图表的保存位置
禁用服务器指标：跳过服务器端指标获取

控制面板

开始测试：启动基准测试
停止测试：中断正在进行的测试
清空日志：清除日志显示
进度条：实时显示测试进度
状态信息：显示当前测试状态

2.2 结果标签页

指标表

客户端指标表：显示 TTFT、端到端延迟、ITL、令牌 / 秒
服务器指标表：显示吞吐量、队列、缓存等指标（本地模式）

图表

图表选择器：下拉菜单选择不同类型的图表
支持的图表类型：
- 客户端延迟曲线

分布偏度图

权衡分析图

效率前沿图

批次大小分析

解码吞吐量分析

日志

日志显示区：实时显示测试过程的详细信息
自动滚动：新日志自动滚动到底部

三、外部 API 测试

3.1 支持的外部 API

API 服务	端点	模型	认证要求
DeepSeek API	https://api.deepseek.com/v1/chat/completions	deepseek-chat	需要 API 密钥
OpenAI API	https://api.openai.com/v1/chat/completions	gpt-3.5-turbo、gpt-4 等	需要 API 密钥

3.2 外部 API 测试步骤

基本配置

设置 API 端点：例如 https://api.deepseek.com/v1/chat/completions
配置模型名称：例如 deepseek-chat
选择模型类型：外部 API 通常选择 text
设置 API 密钥：从相应平台获取，输入时显示为密码格式
配置测试参数：
- 请求数量：建议 10-100（避免费用过高）
- 最大令牌数：建议 64-256
- 请求速率：建议 5-10（避免触发速率限制）

速率配置

单速率测试示例：
- 请求数量: 50
- 最大令牌数: 128
- 请求速率: 5
多速率测试示例：
- 请求数量: 30
- 请求速率: 1,5,10
- 运行间等待时间: 10 秒

执行测试

点击 "开始测试" 按钮
观察实时日志输出
等待测试完成
切换到 "结果" 标签页查看数据

注意事项

费用控制：外部 API 按使用量收费，建议先用少量请求测试
速率限制：不同服务商有不同的速率限制，建议保守设置
网络延迟：外部 API 的延迟包含网络传输时间

四、本地模型测试

4.1 本地部署要求

测试本地模型需要先部署 LLM 服务，推荐使用 vLLM。

vLLM 快速部署（bash 命令）

\# 安装vLLMpip install vllm\# 启动服务器python -m vllm.entrypoints.openai.api\_server \\&#x20;   \--model meta-llama/Llama-2-7b-chat-hf \\&#x20;   \--port 30000 \\&#x20;   \--host 0.0.0.0

4.2 本地模型测试配置

基本配置

设置 API 端点：http://localhost:30000/v1/chat/completions
配置模型名称：meta-llama/Llama-2-7b-chat-hf
保持服务器指标启用：本地测试时不要勾选 "禁用服务器指标"，以获取完整性能数据

测试配置示例

基础性能测试：
- 请求数量: 100
- 请求速率: 20
- 最大令牌数: 128
压力测试：
- 请求数量: 1000
- 请求速率: 100
- 最大令牌数: 256
多速率测试：
- 请求数量: 200
- 请求速率: 10,30,50,80,100
- 运行间等待时间: 30 秒

服务器指标说明

本地测试可获取以下服务器端指标：

预填充吞吐量：处理输入 prompt 的速度
解码吞吐量：生成输出 token 的速度
队列长度：等待处理的请求数量
平均批次大小：同时处理的请求数
缓存命中率：KV 缓存的使用效率

五、结果解读

5.1 客户端指标

指标名称	定义	单位	理想值	意义
TTFT（首个令牌时间）	从发送请求到收到第一个 token 的时间	毫秒	< 100ms	影响用户感知的响应速度
端到端延迟	从发送请求到收到完整响应的时间	毫秒	< 2000ms	反映总体响应时间
令牌间延迟（ITL）	连续两个 token 之间的时间间隔	毫秒	< 50ms	反映生成过程的稳定性
令牌 / 秒	每秒生成的 token 数量	tokens/s	越高越好	反映生成速度