vLLM 大模型性能测试

news/2026/1/19 22:31:18/文章来源:https://www.cnblogs.com/aibi1/p/19503897

目录
  • 短文本测试
  • 中等长度测试
  • 长文本测试

短文本测试

vllm bench serve
--model /data/models/Qwen1.5-14B-Chat-AWQ
--backend vllm
--base-url http://localhost:8000
--endpoint /v1/completions
--dataset-name random
--num-prompts 50
--random-input-len 32
--random-output-len 64

中等长度测试

vllm bench serve
--model /data/models/Qwen1.5-14B-Chat-AWQ
--backend vllm
--base-url http://localhost:8000
--endpoint /v1/completions
--dataset-name random
--num-prompts 100
--random-input-len 128
--random-output-len 256

长文本测试

vllm bench serve
--model /data/models/Qwen1.5-14B-Chat-AWQ
--backend vllm
--base-url http://localhost:8000
--endpoint /v1/completions
--dataset-name random
--num-prompts 50
--random-input-len 512
--random-output-len 512

============ Serving Benchmark Result ============
Successful requests: 100
Failed requests: 0
Benchmark duration (s): 83.02
Total input tokens: 12800
Total generated tokens: 25600
Request throughput (req/s): 1.20
Output token throughput (tok/s): 308.35
Peak output token throughput (tok/s): 768.00
Peak concurrent requests: 100.00
Total token throughput (tok/s): 462.53
---------------Time to First Token----------------
Mean TTFT (ms): 2960.13
Median TTFT (ms): 1815.87
P99 TTFT (ms): 50967.20
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms): 185.77
Median TPOT (ms): 184.23
P99 TPOT (ms): 292.57
---------------Inter-token Latency----------------
Mean ITL (ms): 185.77
Median ITL (ms): 124.29
P99 ITL (ms): 428.14

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1185416.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++2026核心介绍

C 核心介绍C 是由 Bjarne Stroustrup 在 1980 年代基于 C 语言扩展而来的编程语言,核心特点是兼容 C 语言且新增了面向对象编程(OOP)特性,同时保留了对底层硬件的直接操控能力,因此被称为 “混合范式语言”—— 既支持…

《Python模糊测试普及困局:隐性壁垒与破局路径深度解析》

Python生态的生命力源于其极致的灵活性与丰富的库资源,这种特性让开发者能快速搭建各类应用、适配多元场景,却也为模糊测试的普及埋下了深层矛盾。模糊测试的核心价值在于通过非预设输入的探索性验证,捕捉常规测试难以触及的隐性风险&#xf…

机器学习实战:多项式回归建模——从模拟数据到模型评估

博主正在参加CSDN博客之星评选,需要您的支持! 投票链接:https://www.csdn.net/blogstar2025/detail/056 题目:多项式回归建模练习 1. 训练资料生成 给定函数:y sin(x) 取样:在给定的 x 值(x…

英特尔AI双赛走出的万名开发者,正在弥合AI人才缺口

作者:金旺近日,据央视新闻报道,我国人工智能企业数量已突破6200家,2025年我国人工智能核心产业规模已经突破1万亿元,人工智能大模型正在融入千行百业。与此同时,另一个来自人力资源社会保障部的统计数据显示…

【网安区块链项目参考】基于区块链的安全日志防篡改系统的设计与实现

整个系统资料包含:全套源码注释开发文档部署指导说明,需要的话可以私信博主获取,伸手党勿扰基于区块链的安全日志防篡改系统的设计与实现摘要随着信息系统规模的不断扩大,系统安全日志在网络安全审计、入侵检测与事后取证中发挥着…

【计算机毕业设计案例】基于django定制化ERP系统APP企业客户设备进销存系统小程序(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

无线网络仿真:蓝牙网络仿真_(15).蓝牙网络仿真研究前沿

蓝牙网络仿真研究前沿 1. 蓝牙网络仿真的背景与意义 1.1 无线网络仿真的重要性 无线网络仿真是一种重要的研究工具,用于评估和优化无线通信系统的性能。通过仿真,研究人员可以模拟真实世界中的各种无线通信场景,从而分析网络的行为和性能。无…

用提示工程让大模型自己检查自己:CoVe方法有效减少幻觉

LLM幻觉问题至今没有根治方案。RAG能缓解一部分,但成本高、架构复杂,而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题,比如历史事件的时间线、人物履历的细节,RAG帮不上什么…

Flink 流处理从入门到精通:DataStream 转换与窗口操作实战

💡 Flink DataStream API 实战全解析:Map、FlatMap、Filter 与 Window 窗口操作详解 封面图建议:深蓝科技感背景,中央 Flink logo,流动线条展示数据流动,关键词“Map / FlatMap / Filter / Window Processing”,简洁直观。 目录 Flink 执行环境与时间语义 基础转换操作…

Java 27 首获后量子混合密钥交换功能提案

计划于9月发布的标准Java版本——Java开发工具包(JDK)27已经获得了首个功能提案:后量子混合密钥交换能力,用于加强网络安全。该功能名为"TLS 1.3的后量子混合密钥交换",已于1月13日在OpenJDK的JDK 27页面上列…

深入 Flink 数据源:RichSourceFunction 的设计与最佳实践

Flink DataStream API 实战:从 SourceFunction 到 RichSourceFunction 的进阶与优化 本文详细讲解了 Apache Flink 中源函数(Source Function)的演进,从最基础的 SourceFunction 到功能更强大的 RichSourceFunction,并结合数据库、Kafka 仿真及可配置化场景提供实战示例,…

小程序毕设项目推荐-基于django+小程序的工厂定制化ERP办公系统APP小程序【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

新手友好 Linux Mint 22.3“Zena“正式发布,带来系统全面升级

如果你想尝试 Linux Mint,现在正是时候。全新改进的"Zena"版本已经到来——仍然基于 Ubuntu Noble,但现在配备了 Cinnamon 6.6、改进的 Wayland 支持,以及更好的国际化功能、新的系统信息和系统管理工具,还有更清晰的图…

什么是挖矿木马?我猜你还不知道

前言 挖矿木马主要就是通过利用各种手段,将挖矿程序植入到用户的计算机中,在用户不知情的情况下,偷偷利用用户的计算机进行执行挖矿功能,从而获取收益。 以下情况是用户中木马的高频事件: 1.用户往往在不注意的时候…

2026校招薪资报告:AI/大模型岗位领跑,附完整学习路径与资料包

2026届校招分析显示:AI/大模型岗位薪资最高(60w-90w),需求激增需掌握Transformer、RAG等技术。测试开发和客户端是性价比之选。学历显著影响薪资起点(双非本科6k至985硕30k)。文章提供大模型学习四阶段路径,从初阶应用到商业闭环,…

云厂商与软件供应商承担万亿美元AI投资,但长期成本终将转向用户

根据Gartner预测,软件供应商和云服务提供商正在承担今年预期万亿美元AI支出增长的主要负担,总投资将达到2.52万亿美元。这家全球技术分析公司预测,AI支出将比去年的1.76万亿美元增长44%。这一数字较9月份估计的1.5万亿美元有所上调。到2029年…

MySQL + MQ 最终一致性终极方案:Outbox + 幂等 + 补偿 + 对账全解析

适用对象:后端架构师 / 高级开发 / 分布式系统设计者 适用场景:订单系统、支付系统、库存系统、账户系统、积分系统、异步解耦系统 MQ 示例:RocketMQ(Kafka、Pulsar 原理一致) 一、问题背景:为什么分布式系统一定会“不一致”? 在微服务架构中,最常见的模式是: 业务服…

小程序计算机毕设之基于django智能制造业ERP系统定制化ERP系统APP小程序(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

在360干了3年网络安全工程师,30岁即将退休的我,告诉你网络安全的真实就业前景

文章目录 前景 网络安全行业真实前景有那么好吗?网络安全人才一将难求,缺口高达 95%安全岗位选择多,薪酬福利高,发展前景好网络安全上升至国家战略,相关政策相继出台 如何入门学习网络安全【黑客】 【----帮助网安学习…

计算机小程序毕设实战-基于django定制化ERP系统APP小程序员工管理、客户管理、设备管理【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…