vllm推理加速之 - continuous batching +Rag合并请求优化

news/2026/1/16 18:23:32/文章来源:https://www.cnblogs.com/aibi1/p/19493525

目录
  • 最大吞吐量的“三剑客”
  • batch 设置多大合适
    • 1️⃣ 影响 batch 大小的核心因素
    • 2️⃣ 工程经验参考表
    • 3️⃣ 结合显存计算
    • 4️⃣ 连续批 + Ray 调度策略
    • 5️⃣ 工程实践总结

KV Cache = max_model_len × batch × hidden_size × 2 × dtype

符号 含义
max_model_len 上下文长度(Token 数)
batch 一次推理请求中同时处理的序列数
hidden_size 模型隐藏层维度(Qwen-14B = 12288)
2 Key + Value,各 1 份
dtype 每个元素占用显存(FP16 = 2 byte, 8-bit = 1 byte, 4-bit ≈ 0.5 byte)

每次 forward 只处理 1 条请求
batch > 1 的优势
-多条请求合并成 batch,一次 forward 同时处理多条请求
-GPU 核心利用率提升 → 吞吐量明显提高
-tradeoff:单条请求延迟略增加,但平均吞吐(QPS)提升

最大吞吐量的“三剑客”

手段 作用 备注
1️⃣ Continuous Batching vLLM 内部把短请求排队,短时间内合并成 batch 送入 forward 提高 GPU 利用率,减少每条请求独立 forward 的开销
2️⃣ Ray / AI 网关自动合并请求 高 QPS 场景下,把来自多客户端/多线程的请求调度、排序、聚合 可以把更多请求填满 batch,让 GPU 始终满载
3️⃣ batch > 1 一次 forward 同时处理多条请求 核心 GPU 并行利用率提升,吞吐量线性增加(理论上)

batch 设置多大合适

明白,你想知道 vLLM / 大模型推理场景下 batch 的最佳实践,尤其是短请求 / 高 QPS 的智能客服场景。下面我从工程实战角度给你整理一套参考方案。


1️⃣ 影响 batch 大小的核心因素

因素 说明
上下文长度(max_model_len) KV Cache ∝ token × batch → 上下文越长,batch 越大显存压力越大
GPU 显存大小 显存越大 → 可承受 batch 越大
权重量化 / dtype FP16 > 8-bit > 4-bit → 权重越小,batch 可越大
请求并发 / QPS 高 QPS → batch 可以大一些,吞吐最大化
延迟要求 单请求延迟敏感 → batch 不宜太大,单条请求等待合并时间增加
多机 / 多卡部署 batch 可以拆分到多 GPU,每卡 batch 分配影响单卡显存

2️⃣ 工程经验参考表

假设:

  • GPU:48GB(SL400S / 3090 / 4090)
  • 模型:Qwen-14B 8-bit
  • 请求短文本:≤2K token
  • vLLM continuous batching 开启
  • 单机 1–6 卡
场景 上下文长度 QPS / 并发 推荐 batch 备注
短请求,低 QPS 2K 50–100 2–4 延迟优先,小 batch 足够
短请求,高 QPS 2K 200–500 4–8 GPU 利用率高,吞吐最大化
中等请求 4K 50–200 2–4 KV Cache 占显存多,batch 不宜过大
长请求 8K+ 50–100 1–2 单请求 forward 时间长,batch 大影响延迟

规律总结

  1. 上下文越长,batch 越小
  2. QPS 越高,batch 越大(吞吐优先)
  3. 延迟敏感 → batch 控制在 1–4

3️⃣ 结合显存计算

KV Cache 占用公式

KV Cache = max_model_len × batch × hidden × 2 × dtype

举例(Qwen-14B 8-bit,hidden=12288,batch=4,2K token):

KV Cache ≈ 2048 × 4 × 12288 × 2 × 1 byte ≈ 196 MB × 2 ? ≈ 384 MB
  • 权重 8-bit ≈ 16–18GB
  • GPU 48GB → 显存足够

batch 太大 → KV Cache 占用增加 → gpu-memory-utilization 要降低,否则 OOM


4️⃣ 连续批 + Ray 调度策略

  1. continuous batching

    • max_batch_size = 推荐 batch
    • max_wait_ms = 5–20ms(短请求延迟敏感)
  2. Ray / AI 网关

    • 自动收集高 QPS 请求
    • 填满 batch
    • 结合优先级队列:短请求优先,长请求单独处理

通过两层合并(网关 + vLLM continuous batching),可以保证 batch 在 吞吐量最大化 的同时 延迟可控


5️⃣ 工程实践总结

条件 batch 建议
token ≤ 2K,低延迟,QPS < 100 1–2
token ≤ 2K,高吞吐,QPS 200–500 4–8
token 4K,QPS < 200 2–4
token 8K+,延迟敏感 1–2

核心原则
batch 大 → GPU 利用率高,吞吐高,但显存增加,单请求延迟增加
batch 小 → 延迟低,显存小,但吞吐受限

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1169450.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详细介绍:vs Code 中 ESLint 插件 和 npm install eslint 的区别

详细介绍:vs Code 中 ESLint 插件 和 npm install eslint 的区别2026-01-16 18:18 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !im…

2026年1月办公写作工具综合实力榜单:AI写作、AI会议纪要、AI润色 - 深度智识库

随着人工智能技术的飞速发展,AI智能办公写作工具已成为提升工作效率、优化文档质量的重要利器。 无论是政府机关的公文撰写,还是企业内部的会议纪要整理,AI工具都展现出了其强大的辅助能力。2026年,我们针对市场上…

三菱FX2N实现对台达变频器ASCII通信控制全解析

三菱FX2N对台达变频器的ASCII的通信控制程序资料PLC采用FX2N&#xff0c;加FX3G-485BD扩展模块,采用MODBUS ASCII控制方式&#xff0c;可以通过PLC实现对变频器的正反转&#xff0c;启动停止的控制&#xff0c;频率的设定&#xff0c;加减速&#xff0c;以及对输出频率的监控。…

2026年温控模块厂家推荐榜单:压缩机/PCR仪/探针台/激光器/芯片测试座/光电器件/流式细胞仪/血液分离机/微流控芯片核心器件温控专业解决方案 - 品牌企业推荐师(官方)

2026年温控模块厂家推荐榜单:压缩机/PCR仪/探针台/激光器/芯片测试座/光电器件/流式细胞仪/血液分离机/微流控芯片核心器件温控专业解决方案 在现代精密工业与生命科学领域,温度控制已从一项基础功能演变为决定设备性…

AI会议纪要生成谁家强?2026年最新智能写作工具Top排名 - 深度智识库

在数字化转型加速的2026年,AI写作工具已成为政企办公的标配。特别是会议纪要这一高频刚需场景,各家AI厂商都推出了针对性解决方案。面对市场上琳琅满目的产品,如何选择最适合的工具?本文从核心功能、适用场景、用户…

Atcoder[ABC401F] Add One Edge 3 题解

[ABC401F] Add One Edge 3 思路 设第一棵树的直径长度为 l1l1l1&#xff0c;第二棵树的直径长度为 l2l2l2&#xff0c;aia_iai​ 为第一棵树中以点 iii 为端点的路径的长度最大值&#xff0c;bib_ibi​ 为第二棵树中以点 iii 为端点的路径的长度最大值。则 f(i,j)f(i,j)f(i,j…

2026年GEO源码搭建哪家专业?源头团队推荐 - 源码云科技

2026年GEO源码搭建哪家专业?源头团队推荐2026年AI获客赛道彻底爆发,GEO优化已然成为企业引流获客的核心抓手,不少创业者和转型企业都在找靠谱的GEO源码搭建团队。市面上GEO优化服务商鱼龙混杂,有贴牌代理的中间商,…

护资刷题APP推荐:易小考助力高效备考 - 品牌观察员小捷

在护士执业资格考试的备考过程中,选择合适的刷题APP至关重要。护资考试的内容广泛,考生需要在短时间内掌握大量的知识。为了提高备考效率,易小考APP(官网:https://www.qingkaoguo.cn/)成为护资刷题APP的首选推荐…

免费AI写论文神器实操指南:7款工具30分钟搞定文理医工论文

一、7款AI论文工具核心对比&#xff1a;快速找到你的“写作搭子” 写论文前&#xff0c;选对工具能少走80%的弯路。我整理了7款工具的核心功能、适用场景和优缺点&#xff0c;帮你快速匹配需求&#xff1a; 工具名称核心定位适用场景优势亮点注意事项PaperTan论文全流程AI助手…

数据小白也能玩转实证!宏智树 AI:解锁论文数据分析的极简模式

作为深耕论文写作科普的教育博主&#xff0c;后台总有粉丝吐槽&#xff1a;“回收了 200 份问卷&#xff0c;对着 SPSS 界面发呆 3 小时”“实验数据堆了几百行&#xff0c;却不知道怎么分析才能支撑论点”“做出的图表被导师批‘不专业、没逻辑’”。 在实证研究越来越受重视…

护考刷题APP推荐:易小考让备考更高效 - 品牌观察员小捷

护考备考是一个系统工程,考生需要在有限的时间内掌握大量知识。选择合适的刷题APP,能够极大提高备考效率。易小考APP(官网:https://www.qingkaoguo.cn/)凭借其丰富的题库和强大的功能,成为护考刷题APP的首选推荐…

盲盒式设计 VS 精准导航!宏智树 AI:让论文问卷从 “无效数据” 到 “实证利器”

作为深耕论文写作科普的教育博主&#xff0c;后台每天都被实证研究党们的吐槽刷屏&#xff1a;“辛辛苦苦发了 200 份问卷&#xff0c;结果数据信效度不达标&#xff0c;全白费&#xff01;”“设计的问题被受访者吐槽看不懂&#xff0c;回收率惨不忍睹&#xff01;”“照搬网上…

如何科学评估软件人力外包服务商?5大核心维度深度解析

在数字化浪潮中&#xff0c;企业技术团队的敏捷构建与弹性扩展能力至关重要。当内部招聘周期长、成本高时&#xff0c;寻求专业的 软件人力外包 服务已成为众多企业的战略性选择。然而&#xff0c;面对市场上众多的服务提供商&#xff0c;如何穿透宣传&#xff0c;找到真正可靠…

杭州拼多多代运营公司哪家好?2026年靠谱服务商参考清单 - 前沿公社

在 2026 年,拼多多商家越来越重视专业代运营服务,借助有实力的运营公司提升流量、转化与复购率。然而,面对众多服务商,“杭州拼多多代运营公司哪家好”这一问题往往让人难以抉择。本文结合市场口碑、服务特点与行业…

三步锁定最佳技术伙伴?解析APP开发公司的三大合作模式

在数字化转型的关键阶段&#xff0c;选择一家合适的合作伙伴来打造应用程序&#xff0c;是企业面临的战略决策。市场上APP开发公司繁多&#xff0c;但按其核心商业模式与交付物&#xff0c;可主要划分为三大类型&#xff1a;软件定制开发服务商、垂直技术型服务商与标准化SaaS服…

2026实用AI智能写作工具精选:写作、纪要、润色、校对等全场景精准适配 - 深度智识库

在数字化办公浪潮的推动下,智能写作、公文写作管理软件已成为提升企业效率、保障文档质量的关键工具。 随着技术的不断进步,市场上涌现出众多智能办公解决方案,其中,蜜度旗下产品模力通凭借其卓越的功能与性能,在…

2026智能农业监测设备领军企业:建大仁科引领气象站与农业传感器国产化新标杆 - 深度智识库

随着我国农业现代化进程加速推进,智能农业监测设备作为智慧农业的核心基础设施,正迎来前所未有的发展机遇。据行业数据显示,2026年我国智能农机市场规模将突破1039亿元,年均复合增长率达18.5%。在这一背景下,山东…

苹果手机照片怎么导入电脑?苹果手机传输照片的5大技巧

大家的苹果手机中都存储着许多照片吧&#xff0c;它们通常很占内存&#xff0c;无论是为了腾空间&#xff0c;还是安全备份&#xff0c;将照片导入电脑都是一个明智的选择。那&#xff0c;苹果手机照片怎么导入电脑&#xff1f;听起来简单是吧&#xff1f;但实际操作中&#xf…

2026年气象站国产优质企业推荐|山东建大仁科领衔,铸就气象监测行业标杆 - 深度智识库

进入2026年1月,气象监测设备在农业、交通、风电等领域的应用愈发广泛,精准、稳定、智能的气象站成为数字化转型的核心支撑,国产化品牌凭借技术突破逐步占据市场主导。其中,山东仁科测控技术有限公司(品牌“建大仁…

如何微调从易到难

🎓 教育AI助手完整技术演进路径 从简单到复杂,4个阶段循序渐进!📊 总览:技术难度与效果对比 难度等级 技术方案 成本 效果 适用场景 ━━━━━━━━━━━━━━━━━━━━━━━━━━━…