Ollama和vLLM大模型推理性能对比实测

news/2025/11/5 11:40:18/文章来源:https://www.cnblogs.com/ai-hpc-trivia/p/19193156

在部署大模型推理服务的时候,选择合适的部署工具可以让我们事半功倍,怎么在对应的场景下选择合适的部署工具,用于平衡部署的成本和推理的性能?

OllamavLLM是目前最常见的两个大模型部署工具,我们先问问DeepSeek看看这两个部署工具的功能特性,分别适用于什么场景?

Ollama和vLLM特性比较

特性维度 Ollama vLLM
设计定位 开发者友好的本地体验工具 生产级的高性能推理引擎
架构特点 单体应用,内置模型管理 专注推理后端,需要API封装
核心技术 基于GGML/GGUF优化,CPU+GPU混合 PagedAttention,连续批处理
易用性 ⭐⭐⭐⭐⭐(极简) ⭐⭐⭐(需要集成)
性能 ⭐⭐⭐(良好) ⭐⭐⭐⭐⭐(卓越)
生态系统 ⭐⭐⭐⭐(丰富模型库) ⭐⭐⭐⭐(工业标准)
资源需求 相对较低 相对较高
适用场景 1. 个人开发与实验
2. 资源受限环境
3. 多模型管理需求
1. 高并发生产环境
2. 对吞吐量要求极高的场景
3. 企业级部署

这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,控制同样的模型、同样的API推理参数,并测试并发调用下的性能表现。

在GPU算力租用平台 晨涧云 分别租用3090显卡资源的Ollama和vLLM的云容器进行测试。

模型选择与参数控制

这里选择 Qwen3的模型进行测试,考虑到3090的显存是24GB,选择一个FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本,调整脚本控制变量:

  • 使用复杂度近似的N个prompts;

  • MAX_TOKENS配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;

  • 选择[1, 4, 8, 16] 4种BATCH_SIZES测试不同并发度下的性能表现;

  • 每轮测试执行3次推理,指标取平均;

  • 同时需要模型预热,消除第一次推理响应延时过大的问题。

然后就可以执行推理性能测试脚本,查看输出结果。

Ollama推理性能

3090-Ollama大模型推理测试结果

vLLM推理性能

3090-vLLM大模型推理测试结果

测试结果解释

  • Batch Size:一次推理调用的并发prompt数量

  • 平均耗时 (s):多次推理平均响应时长

  • 平均吞吐量 (tokens/s):多次推理平均Token生成速度

  • 平均显存 (MB):多次推理平均显存使用量

  • 平均GPU使用率(%):多次推理平均GPU使用率

vLLM的显存占用比Ollama略高,GPU使用率比较接近,主要比较平均响应时长平均Token生成速度两个指标:

Batch Size 1 8 16
响应时长(s) Ollama 5.68 7.64 15.6
响应时长(s) vLLM 5.44 5.82 6.42
响应时长(s) 差异 104.4% 131.3% 243.0%
Token生成速度(tokens/s) Ollama 45.1 268.0 262.9
Token生成速度(tokens/s) vLLM 47.1 351.9 638.4
Token生成速度(tokens/s) 差异 95.6% 76.2% 41.2%

——Ollama的并发数量超过8之后有明显的性能瓶颈,调整 OLLAMA_NUM_PARALLEL 参数还是上不去,不知道是不是需要调整其他参数。

总体来说,顺序调用场景(Batch Size=1)Ollama和vLLM性能接近;并发调用场景vLLM的性能完胜,而且并发度越高的场景下vLLM的性能优势越明显。

这个测试基于单卡的推理场景,多卡下面并发调用的性能表现可能又会有差异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/956659.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wireguard组网

一、需要准备事项: 1.有IPV4的公网服务器 2.公网服务器安装好docker 二、公网服务器docker安装服务端 1.安装docker curl -sSL https://get.docker.com | sh //安装docker2.生成wireguard的密码哈希值 docker run --…

误解对象的“引用名”跟对象的“名称属性”(`__name__`)引发的一则错误

class MyMetaclass(type):def __new__(cls,*args,**kwargs):print("MyMetaclass中的new被执行")return super().__new__(cls,*args,**kwargs)def __init__(self,*args,**kwargs):print("MyMetaclass中的…

React系列教程:8. 传递函数

函数组件 // src/components/Hello1.jsximport { useState } from reactfunction Hello1 (props) {const [ hello1, setHello1 ] = useState(world1)setTimeout(() => {setHello1(world2)}, 2000)return ({/* 执行父…

杂题选记(10.26 - 11.1)

P12029 [USACO25OPEN] Election Queries G 记 \(c_i\) 为投票给 \(i\) 的人数。那么两头奶牛 \(x\),\(y\) 能成为领队的条件是 \(c_x + c_y \ge c_max\),其中 \(c_max = \max{c_i}\)。 考虑单次查询,用双指针可以轻…

P3953 [NOIP 2017 提高组] 逛公园 题解

P3953 [NOIP 2017 提高组] 逛公园 题解P3953 [NOIP 2017 提高组] 逛公园 题解 题目传送门 我的博客 前言 笔者的做法是最短路+记忆化搜索+DP,目前没有写完其他做法。 思路 拿到这道题后笔者第一个想法是跑一个Dijkstr…

用“引用名”替代“变量名”来描述指向对象的标识,更为准确!

在Python等面向对象编程语言中,用“引用名”替代“变量名”来描述指向对象的标识,在逻辑上更准确,尤其当讨论对象、类、内存地址等概念时。这背后的核心原因是“变量”和“引用”的本质区别: 1. 传统“变量名”的局…

2025 年最新推荐开沟机供应厂家榜单:覆盖多机型实力厂商口碑推荐及选购指南梯形槽 / 自走式手扶 / 轮式 / 农用开沟机公司推荐

引言 随着基建与农林产业快速发展,地下管道铺设、农田灌溉等工程对开沟机的需求持续增长,然而市场供需匹配难题凸显,用户选购时面临诸多困扰。为此,行业权威协会开展开沟机厂商专项测评,测评涵盖近百家国内厂商,…

2025年11月长途旅行行李箱品牌十大选择榜:权威榜单与数据佐证推荐

拖着箱子赶红眼航班、在异国的石板路上颠簸、机场传送带旁焦急辨认行李——这些场景让“一只靠谱的长途旅行行李箱”成为高频刚需。2025年出境游与长线国内游人次已恢复至2019年的108%,交通运输部数据指出,全年航空旅…

2025 年镀锌卷板厂家最新推荐排行榜:聚焦实力企业,揭秘定制化服务优势及优质产品选购方向无花镀锌卷板 / 高锌层镀锌卷板 / 批发镀锌卷板公司推荐

引言 在工业制造与建筑建材领域,镀锌卷板作为基础防腐材料,其品质直接影响终端产品的使用寿命与安全性能。近期,行业协会开展镀锌卷板厂家综合测评,覆盖产品性能、技术实力、服务能力等核心维度,测评样本量达百余…

2025年11月长途旅行行李箱十大品牌选择榜:知名主流参数全解析

出门七天以上,箱子先坏还是人先累?这是长途旅行者最怕遇到的尴尬:轮子掉胶、拉杆卡死、箱体开裂,机场托运带前一片狼藉。2024年民航局发布的数据显示,国内航线全年行李差错率虽降至万分之三点七,但旅客关于行李箱…

2025.11 做题记录

P3412 仓鼠找sugar II solution 先把题意转化成,求对于所有 \(a,b\) 的情况,从 \(a\) 走到 \(b\) 的期望步数和。 对于这个东西,把每条边的贡献拆出来。答案即 \(\sum 每条边的经过次数 \times 走过每条边的期望步数…

2025 年 11 月外墙仿石漆厂家推荐排行榜,真石漆,水包砂,质感涂料,仿石涂料优质品牌公司推荐

2025年11月外墙仿石漆厂家推荐排行榜:真石漆、水包砂、质感涂料、仿石涂料优质品牌公司深度解析 在建筑外墙装饰领域,仿石漆凭借其优异的装饰效果和实用性能,已成为现代建筑外墙装饰的主流选择之一。随着技术的不断…

2025 年 11 月耐污仿石漆厂家推荐排行榜,外墙耐污仿石漆,墙面耐污仿石漆,建筑涂料耐污仿石漆公司推荐

2025 年 11 月耐污仿石漆厂家推荐排行榜 随着建筑行业对装饰材料性能要求的不断提升,耐污仿石漆凭借其卓越的耐候性、自洁功能和逼真的石材效果,已成为外墙装饰领域的主流选择。为帮助行业用户筛选优质耐污仿石漆品牌…

2025 年 11 月水包水仿石漆厂家推荐排行榜,外墙水包水仿石漆,多彩水包水仿石漆,质感水包水仿石漆公司推荐

2025年11月水包水仿石漆厂家推荐排行榜 行业背景与发展现状 水包水仿石漆作为建筑外墙装饰材料的重要组成部分,近年来在建筑行业中的应用日益广泛。这种新型涂料以其卓越的仿真效果、优异的耐候性能和环保特性,逐渐取…

2025年11月轻便行李箱品牌十大排行榜:全维度解析与避坑建议

拖着箱子赶高铁、在机场一路小跑、换乘地铁还得抬上台阶——这些场景让“轻便”成为行李箱的第一刚需。2025年国内出行人次已恢复至2019年的112%,轻量化箱体销量同比再增18%,但市场同时出现“克重虚标”“轮子掉色”…

2025 年 11 月防霉仿石漆厂家推荐排行榜,外墙防霉仿石漆,室内防霉仿石漆,水性防霉仿石漆,高效防霉仿石漆公司推荐

2025年11月防霉仿石漆厂家推荐排行榜 行业背景与发展现状 随着建筑行业对装饰材料性能要求的不断提升,防霉仿石漆作为新型环保建筑涂料,在建筑外墙和室内装饰领域展现出广阔的应用前景。这种材料不仅能够完美复刻天然…

移动应用APP开发搭建自动化测试框架经验分享

光靠一招不行,得从人、流程、工具、组织四个维度系统推进。大家好,我是陈哥。 今天,我邀请了禅道专栏作者刘军,和我们分享一下移动应用APP开发如何搭建自动化测试框架。 希望通过这些实操经验能给大家带来新的启发…

2025年11月大容量行李箱品牌十大对比榜:知名型号数据化评测

拖着28寸箱子赶红眼航班、在高铁站台阶上被轮子噪音吵醒旁人、返程时发现箱体被摔裂——这些场景让“大容量”不再只是升数游戏,而是对结构强度、静音系统、售后网络的综合考验。中国民航局2024年公报显示,国内航司全…

React系列教程:7. 条件渲染

方式一 let content; if (isLoggedIn) {content = <AdminPanel />; } else {content = <LoginForm />; } return (<div>{content}</div> );方式二 <div>{isLoggedIn ? (<AdminPanel…

基于MATLAB的FY-3B MWRI数据处理

1. 数据读取与结构解析 FY-3B MWRI数据采用HDF5格式存储,需通过MATLAB的HDF5接口读取核心参数: % 读取HDF5文件元数据 fileInfo = hdf5info(FY3B_MWRI_L1_20230101_0000.HDF);% 提取关键数据集 brightnessTemp = hdf…