LLM推理服务器基准性能测试工具

news/2025/10/30 13:50:19/文章来源:https://www.cnblogs.com/little-horse/p/19176821

LLM 推理服务器基准测试工具

使用文档

一、软件概述

LLM 推理服务器基准测试工具是一款专业的性能测试软件,用于评估大语言模型(LLM)推理服务的性能。软件支持测试外部 API 服务(如 DeepSeek、OpenAI)和本地部署的模型,能够全面评估客户端和服务器端的性能指标。

主要功能

  • 双模式测试:支持外部 API 和本地模型测试

  • 全面指标:TTFT、端到端延迟、吞吐量等关键指标

  • 灵活配置:单速率 / 多速率测试,自定义参数

  • 可视化分析:实时图表和详细报告

  • 中文界面:完全中文化的用户界面


二、界面介绍

软件界面分为配置结果两个主要标签页,各区域功能如下:

2.1 配置标签页

1

基本配置区域

  • API 端点 URL:目标服务的完整 API 地址

  • 模型名称:要测试的具体模型

  • 模型类型:

    • vision:支持图像输入的多模态模型

    • text:纯文本模型

  • 请求数量:测试中发送的总请求数(1-10000)

  • 最大令牌数:每个请求生成的最大令牌数

速率配置区域

  • 单速率测试:

    • 请求速率:每秒发送的请求数

    • 特殊值 "无限":尽可能快地发送请求

  • 多速率测试:

    • 请求速率列表:逗号分隔的多个速率值

    • 运行间等待时间:不同速率测试之间的间隔

高级配置区域

  • API 密钥:访问需要认证的服务时使用

  • 输出目录:测试结果和图表的保存位置

  • 禁用服务器指标:跳过服务器端指标获取

控制面板

  • 开始测试:启动基准测试

  • 停止测试:中断正在进行的测试

  • 清空日志:清除日志显示

  • 进度条:实时显示测试进度

  • 状态信息:显示当前测试状态

2.2 结果标签页

指标表

2

  • 客户端指标表:显示 TTFT、端到端延迟、ITL、令牌 / 秒

  • 服务器指标表:显示吞吐量、队列、缓存等指标(本地模式)

图表

  • 图表选择器:下拉菜单选择不同类型的图表

  • 支持的图表类型:

    • 客户端延迟曲线

3

  • 分布偏度图

4

  • 权衡分析图

5

  • 效率前沿图

6

  • 批次大小分析

7

  • 解码吞吐量分析

8

日志

9

  • 日志显示区:实时显示测试过程的详细信息

  • 自动滚动:新日志自动滚动到底部


三、外部 API 测试

3.1 支持的外部 API

API 服务 端点 模型 认证要求
DeepSeek API https://api.deepseek.com/v1/chat/completions deepseek-chat 需要 API 密钥
OpenAI API https://api.openai.com/v1/chat/completions gpt-3.5-turbo、gpt-4 等 需要 API 密钥

3.2 外部 API 测试步骤

  1. 基本配置
  • 设置 API 端点:例如 https://api.deepseek.com/v1/chat/completions

  • 配置模型名称:例如 deepseek-chat

  • 选择模型类型:外部 API 通常选择 text

  • 设置 API 密钥:从相应平台获取,输入时显示为密码格式

  • 配置测试参数:

    • 请求数量:建议 10-100(避免费用过高)

    • 最大令牌数:建议 64-256

    • 请求速率:建议 5-10(避免触发速率限制)

  1. 速率配置
  • 单速率测试示例:

    • 请求数量: 50

    • 最大令牌数: 128

    • 请求速率: 5

  • 多速率测试示例:

    • 请求数量: 30

    • 请求速率: 1,5,10

    • 运行间等待时间: 10 秒

  1. 执行测试
  • 点击 "开始测试" 按钮

  • 观察实时日志输出

  • 等待测试完成

  • 切换到 "结果" 标签页查看数据

  1. 注意事项
  • 费用控制:外部 API 按使用量收费,建议先用少量请求测试

  • 速率限制:不同服务商有不同的速率限制,建议保守设置

  • 网络延迟:外部 API 的延迟包含网络传输时间


四、本地模型测试

4.1 本地部署要求

测试本地模型需要先部署 LLM 服务,推荐使用 vLLM。

vLLM 快速部署(bash 命令)

\# 安装vLLMpip install vllm\# 启动服务器python -m vllm.entrypoints.openai.api\_server \\    \--model meta-llama/Llama-2-7b-chat-hf \\    \--port 30000 \\    \--host 0.0.0.0

4.2 本地模型测试配置

  1. 基本配置
  • 设置 API 端点:http://localhost:30000/v1/chat/completions

  • 配置模型名称:meta-llama/Llama-2-7b-chat-hf

  • 保持服务器指标启用:本地测试时不要勾选 "禁用服务器指标",以获取完整性能数据

  1. 测试配置示例
  • 基础性能测试:

    • 请求数量: 100

    • 请求速率: 20

    • 最大令牌数: 128

  • 压力测试:

    • 请求数量: 1000

    • 请求速率: 100

    • 最大令牌数: 256

  • 多速率测试:

    • 请求数量: 200

    • 请求速率: 10,30,50,80,100

    • 运行间等待时间: 30 秒

  1. 服务器指标说明

    本地测试可获取以下服务器端指标:

  • 预填充吞吐量:处理输入 prompt 的速度

  • 解码吞吐量:生成输出 token 的速度

  • 队列长度:等待处理的请求数量

  • 平均批次大小:同时处理的请求数

  • 缓存命中率:KV 缓存的使用效率


五、结果解读

5.1 客户端指标

指标名称 定义 单位 理想值 意义
TTFT(首个令牌时间) 从发送请求到收到第一个 token 的时间 毫秒 < 100ms 影响用户感知的响应速度
端到端延迟 从发送请求到收到完整响应的时间 毫秒 < 2000ms 反映总体响应时间
令牌间延迟(ITL) 连续两个 token 之间的时间间隔 毫秒 < 50ms 反映生成过程的稳定性
令牌 / 秒 每秒生成的 token 数量 tokens/s 越高越好 反映生成速度

5.2 服务器指标(仅本地模式)

  • 预填充吞吐量:处理输入 prompt 的速度,单位 tokens/s,影响长文本处理效率

  • 解码吞吐量:生成输出 token 的速度,单位 tokens/s,决定实际生成效率

  • 队列长度:等待处理的请求数量,单位请求数,反映系统负载情况

  • 平均批次大小:同时处理的请求数,单位请求数,反映并发处理能力

5.3 图表解读

  • 客户端延迟曲线:X 轴为请求速率,Y 轴为延迟(毫秒),用于观察延迟随负载增加的变化

  • 分布偏度图:左偏表示大多数请求延迟较低(性能良好),右偏表示存在高延迟异常(需优化),对称表示延迟分布均匀

  • 权衡图:展示延迟和吞吐量的权衡关系,用于找到性能和效率的最佳平衡点


六、常见问题

Q1: 所有请求都失败了怎么办?

检查以下项目:

  • API 端点 URL 是否正确

  • API 密钥是否有效

  • 模型名称是否正确

  • 网络连接是否正常

  • 本地服务是否已启动

Q2: 测试速度很慢怎么办?

解决方法:

  • 减少请求数量

  • 减少最大令牌数

  • 适当增加请求速率(本地服务)

  • 检查网络延迟(外部 API)

Q3: 图表标题显示为方框怎么办?

解决方法:

  • 这是中文字体显示问题

  • 不影响数据准确性

  • 可以查看英文标签理解图表内容

Q4: 外部 API 只能看到客户端指标?

说明:

  • 外部 API 不提供服务器端指标

  • 这是正常现象,所有外部 API 都如此

  • 如需完整指标,请测试本地部署的模型

Q5: 如何选择合适的请求速率?

建议:

  • 外部 API:5-10 请求 / 秒

  • 本地 API:50-200 请求 / 秒

  • 压力测试:根据硬件性能调整

Q6: 测试结果保存在哪里?

位置:

  • 默认保存在软件所在目录

  • 可在 "输出目录" 中自定义路径

  • 包含 PNG 图表和 JSON 数据文件


七、使用技巧

  1. 配置管理
  • 使用 "文件" 菜单保存常用配置

  • 加载配置可快速设置测试参数

  • 便于重复测试和结果对比

  1. 测试策略
  • 先用少量请求验证配置

  • 逐步增加负载测试性能

  • 多次测试取平均值提高准确性

  1. 结果分析
  • 关注 P95 值而非平均值,更能反映实际体验

  • 结合多个指标综合评估性能

  • 通过多速率测试找到最佳配置

  1. 性能优化
  • 根据测试结果调整部署参数

  • 识别性能瓶颈进行针对性优化

  • 建立性能基线持续监控


八、下载使用

项目:https://github.com/jiangnanboy/simple_llm_benchmarking

我已经打包好了,可直接下载使用

1.百度网盘:番石榴LLM推理效率评测.exe

链接: https://pan.baidu.com/s/1phx7KA1qDAnCohFVhbNIIQ

提取码: 4nd4

2.huggingface

https://huggingface.co/jiangnanboy/llm_benchmarking

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/950728.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年耐热钢工装厂家推荐榜:耐热钢/多用炉/真空炉/井式炉耐热钢工装/聚焦耐久与效能,助力热处理工艺升级

随着高端制造业、新能源及新材料领域对热处理工艺要求日益严苛,作为核心承载部件的耐热钢工装,其性能直接关系到产品质量、生产能耗及设备寿命。2025年,市场需求持续扩大,但厂商在材料研发、铸造工艺及定制化能力上…

2025年比较好的防雷汇流箱厂家选购指南与推荐

2025年比较好的防雷汇流箱厂家选购指南与推荐 开篇介绍 随着光伏产业的快速发展,防雷汇流箱作为光伏发电系统中的重要组件,其性能和质量直接影响整个系统的安全性和稳定性。2025年,市场上涌现出众多防雷汇流箱厂家…

集训wp第一周web

攻防世界 get-post怎么,答案是错的? view-source既然flag在源码里,F12/ctrl+U/view-source:.../NoScript/bp(真不嫌麻烦) 为什么攻防世界依旧不认可我的答案?😡疑似被做局 disabled-button F12查看源代码,前端…

2025年靠谱的徐州煤棚网架实力厂家TOP推荐榜

2025年靠谱的徐州煤棚网架实力厂家TOP推荐榜 随着国家对工业基础设施建设的持续投入,煤棚网架作为电厂、储煤场等领域的核心结构,其安全性、耐久性和施工效率成为客户关注的重点。徐州作为“中国网架之乡”,集聚了…

2025镀锌板厂家实力盘点:优质供应商值得关注,SPCC镀锌板,热浸镀锌板,Q235镀锌板厂家推荐

随着建筑基建、机械制造、新能源等领域对防腐板材需求的持续攀升,镀锌板市场对产品稳定性、适配性与服务效率的要求愈发严苛。结合区域资源优势、市场口碑及实际服务能力,有特色的镀锌板生产企业,供行业采购参考。海…

2025年济南艺考文化课培训优质机构推荐:助力艺考生高效冲刺,济南艺考文化课培训机构,山东艺考文化课培训机构推荐

对于艺考生而言,专业能力与文化成绩如同 “双翼”,缺一不可。在济南,不少专注于艺考文化课培训的机构凭借科学的教学体系、经验丰富的师资团队,为艺考生搭建起文化学习的坚实桥梁。以下结合机构教学特色、学员反馈…

2025激光雕刻机厂商盘点:实力派各有专攻,小型激光雕刻机,便携式激光雕刻机厂家推荐

在激光雕刻机行业,设备的精度控制、运行稳定性与场景适配性直接影响生产效率与加工品质。结合市场调研数据、用户实际反馈及行业技术发展趋势,定位清晰、优势突出的优质厂商,为不同需求场景提供客观参考。深圳市嗨兴…

2025年耐用的防穿刺贴体膜最新TOP品牌厂家排行

2025年耐用的防穿刺贴体膜最新TOP品牌厂家排行 随着电商物流、生鲜配送等行业的快速发展,防穿刺贴体膜的市场需求持续增长。优质的防穿刺贴体膜不仅能有效保护产品,还能延长保鲜期、减少运输损耗。2025年,市场上涌…

2025蒸发器设备厂家实力推荐:聚焦技术创新与环保适配性,多效蒸发器,废水蒸发器厂家推荐

在工业废水处理、物料浓缩等环保领域,蒸发器设备的技术实力直接决定资源回收效率与环保达标质量。结合企业技术积淀、行业应用案例及市场口碑,值得关注的蒸发器厂家,为行业选型提供参考。金柯博通环保科技 (江苏) 有…

2025工业蒸发器厂家精选指南:实力派企业技术与服务解析,废水蒸发器,MVR蒸发器厂家推荐

在化工、环保、食品等行业的生产流程中,蒸发器作为物料浓缩、废水处理的核心设备,其技术成熟度与节能性能直接影响企业生产效率与环保水平。经过对行业技术实力、案例落地能力及服务体系的综合评估,优势的蒸发器生产…

2025年评价高的储能直流接触器行业内知名厂家排行榜

2025年评价高的储能直流接触器行业内知名厂家排行榜 随着全球能源结构转型加速,储能技术作为新能源领域的关键环节,其核心组件——直流接触器的市场需求持续攀升。直流接触器在储能系统中承担着电路通断、安全保护等…

2025模具钢厂家行业推荐:聚焦品质与技术的实力派之选,冷作模具钢,塑胶模具钢,进口模具钢厂家推荐

在制造业升级的浪潮中,模具钢作为核心基础材料,其品质直接影响下游产业的生产效率与产品精度。经过市场调研与行业口碑梳理,在技术实力、产品质量与服务能力方面表现突出的模具钢企业,供相关从业者参考。焰特尔新材…

2025年公务员考公机构培训推荐:优质机构助力备考之路,事业单位考公机构培训,教师招聘考公机构培训推荐

对于备考公务员的人群而言,选择一家专业、靠谱的培训机构,能让备考效率大幅提升,少走弯路。以下结合机构的教学质量、师资团队、课程体系及学员反馈,公考培训领域表现突出的机构,供各位考生参考。 一、北京成公教…

2025工业一体机品牌实用推荐:从场景适配看选型价值,嵌入式一体机,悬臂式一体机厂家推荐

在工业数字化转型加速推进的当下,一体机作为设备互联与数据处理的核心终端,其性能、稳定性与场景适配能力直接影响企业运营效率。基于全国 200 余家企业实地应用反馈、行业技术检测数据及用户长期使用口碑,结合算力…

树莓派dns查看方法 - tommy

方法1: cat /etc/resolv.conf 方法2: sudo nmtui 方法 3:手动编辑配置文件 编辑 NetworkManager 连接配置文件: bash sudo vim /etc/NetworkManager/system-connections/<连接名>.nmconnection 在 [ipv4] 部…

2025非标门定制优选品牌盘点,实力厂家值得关注,铸铝门厂家,别墅大门厂家推荐

在非标门定制领域,产品的工艺精度、设计适配性与服务完善度是衡量品牌实力的核心标准。经过市场口碑调研与行业资质梳理,非标门厂家凭借各自优势脱颖而出,为不同需求的消费者提供可靠选择。 【推荐指数:★★★★★…

2025年压缩机厂家行业推荐榜:聚焦技术与服务的实力派之选,高压压缩机,高压空气压缩机厂家推荐

在工业生产、能源开发、冷链物流等领域,压缩机作为核心动力设备,其性能与可靠性直接影响企业运营效率。本次结合技术创新、场景适配性、服务保障等维度,筛选出 5 家各具优势的压缩机企业,为行业选型提供参考。 推荐…

2025年工业除尘塑烧板优质厂家推荐榜:聚焦性能与服务的实用之选,耐低温塑烧板,耐酸耐碱塑烧板厂家推荐

在工业粉尘治理领域,塑烧板凭借过滤效率高、耐候性强、使用寿命长等优势,成为钢铁、化工、建材等行业的核心环保装备。为帮助企业精准选择适配产品,结合技术实力、场景适配性及用户口碑,整理出以下 5 家优质塑烧板…

2025年上海企业注册代办服务公司推荐榜:上海注册公司办理营业执照公司,助力初创企业精准启航

随着2025年创业环境的持续优化与上海国际化商业中心地位的进一步巩固,新兴企业对高效、规范、专业的公司注册与财税服务需求激增。然而,市场上门槛不一、服务质量参差不齐的问题,也让创业者在选择时面临专业度、可靠…

Java 21 虚拟线程 vs 缓存线程池与固定线程池

探索 Java 并发如何从 Java 8 的增强发展到 Java 21 的虚拟线程,从而实现轻量级、可扩展且高效的多线程处理。引言 并发编程仍然是构建可扩展、响应式 Java 应用程序的关键部分。多年来,Java 持续增强了其多线程编程…