vLLM KVCache 评估

news/2026/1/16 18:31:52/文章来源:https://www.cnblogs.com/aibi1/p/19493558

目录
  • 1️⃣ hidden_size
    • Qwen 系列举例
  • 2️⃣ dtype
  • 3️⃣ 结合公式举例
    • ✅ 总结

KV Cache = max_model_len × batch × hidden_size × 2 × dtype

符号 含义
max_model_len 上下文长度(Token 数)
batch 一次推理请求中同时处理的序列数
hidden_size 模型隐藏层维度(Qwen-14B = 12288)
2 Key + Value,各 1 份
dtype 每个元素占用显存(FP16 = 2 byte, 8-bit = 1 byte, 4-bit ≈ 0.5 byte)

每次 forward 只处理 1 条请求
batch > 1 的优势
-多条请求合并成 batch,一次 forward 同时处理多条请求
-GPU 核心利用率提升 → 吞吐量明显提高
-tradeoff:单条请求延迟略增加,但平均吞吐(QPS)提升

明白,你想搞清楚公式里 hidden_sizedtype 的具体数值。下面详细说明:

1️⃣ hidden_size

hidden_size = 模型隐藏层维度,也就是 Transformer 中 每个 token 表示向量的长度

Qwen 系列举例

模型 hidden_size
Qwen-7B 8192
Qwen-14B 12288
Qwen-32B 20480

对应每个 token 的 embedding / attention 内部维度

所以如果你在用 Qwen-14B

hidden_size = 12288

2️⃣ dtype

dtype = 每个元素在显存中的字节数(Byte),影响 KV Cache 和权重占用

数据类型 说明 Bytes/元素
FP32 全精度 4
FP16 半精度 2
BF16 半精度变体 2
8-bit int / 量化 量化权重 / KV Cache 1
4-bit int / 量化 超低精度 0.5

注意:KV Cache 可以用 FP16 或 8-bit 保存 key/value
8-bit / 4-bit 可以大幅减少显存占用


3️⃣ 结合公式举例

假设:

  • Qwen-14B
  • max_model_len = 2048
  • batch = 4
  • hidden_size = 12288
  • dtype = 8-bit → 1 Byte

公式:

KV Cache = max_model_len × batch × hidden_size × 2 × dtype= 2048 × 4 × 12288 × 2 × 1 byte≈ 201 MB × 2 ?  (大概估算,实际稍大)

2 是因为 Key + Value 各一份

如果改成 FP16:

dtype = 2 bytes
KV Cache ≈ 402 MB

✅ 总结

符号 含义 示例(Qwen-14B)
hidden_size 模型隐藏层维度 12288
dtype 每个元素显存占用 FP16=2B, int8=1B, 4-bit≈0.5B

KV Cache 显存占用和这两个值直接线性相关,上下文长度和 batch 也是线性关系。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1169469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

旅美经济学家向凌云院士获聘秘鲁驻华大使馆“中秘友好交流使者”

【2025年12月30日 北京】 在中秘两国关系持续深化、经贸往来日益频繁的背景下,秘鲁共和国驻华大使馆于今日正式授予旅美著名经济学家、多国院士、世界领先的新兴产业金融专家向凌云(Prof. Lingyun Xiang)“中秘友好交流使者”荣誉称号。跨越山海的友谊桥梁秘鲁驻华大…

2026年一键式闪测仪厂家推荐排行榜:影像式/全自动闪测仪,高精度智能测量设备实力品牌深度解析 - 品牌企业推荐师(官方)

2026年一键式闪测仪厂家推荐排行榜:影像式/全自动闪测仪,高精度智能测量设备实力品牌深度解析 在现代精密制造业中,效率与精度是衡量生产能力的核心标尺。随着工业4.0与智能制造的浪潮席卷全球,传统的接触式测量方…

深度测评!10个AI论文网站:本科生毕业论文必备工具全解析

深度测评!10个AI论文网站:本科生毕业论文必备工具全解析 2026年AI论文写作工具测评:为何需要这份榜单? 随着人工智能技术的不断进步,AI论文写作工具逐渐成为高校学生和研究人员的重要辅助工具。然而,面对市…

基于MATLAB GUI的条形码识别探索

条形码识别 matlab条形码识别 基于matlab gui的条形码识别在现代生活中,条形码无处不在,无论是超市购物还是物流管理,它们都极大地提高了信息录入和管理的效率。今天咱们就来聊聊如何用MATLAB实现条形码识别,特别是基于MATLAB GUI…

【咸鱼RK3399】网络摄像头

咸鱼RK3399网络摄像头 (1)缘起 搞完了casaos的轻NAS和内网穿透发现,这个rk3399的cpu利用率只有3%,就像继续琢磨搞点啥,然后逛咸鱼看到了个USB摄像头免驱的,因此打算打算搞一个网络摄像头,一查刚…

AI技术如何重塑搜索引擎优化的核心策略与方向

人工智能技术飞速发展着,在此情形下,搜索引擎优化领域正经历一场颇具深度的重大变革。传统的SEO策略主要借助关键词密度、外链建设这类技术手段,然而AI搜索优化却是经由机器学习、自然语言处理这些人工智能技术,以更具智能性的方式…

国内色选机市场主要参与者技术特点与选型参考分析

基于光电原理打造的色选机,是一种装备,它能够凭借识别物料颜色、形状、纹理等特征差异,达成自动分选,具备高效特性,在粮食加工、茶叶精制、坚果筛选、塑料分拣以及矿石提纯等众多行业里,已然成为提升产品品…

导师推荐!9款AI论文工具测评:本科生毕业论文必备

导师推荐!9款AI论文工具测评:本科生毕业论文必备 2026年AI论文工具测评:为何需要这份榜单? 随着人工智能技术的不断进步,越来越多的本科生开始依赖AI工具来辅助论文写作。然而,市面上的AI论文工具种类繁多&…

30 段速三菱 PLC 程序在橡筋机生产线的实践与分享

30段速三菱PLC程序个人用于橡筋机生产线 程序内有伺服与变频的相关运用,十分适合PLC爱好者学习! 内容包括:1.三菱PLC程序2.维控触摸屏程序3.电气原理图4.运用到的伺服和变频的说明书嘿,PLC 爱好者们!今天来给大家分享一…

2026年GEO源码搭建源头优选,技术实力厂商排行 - 源码云科技

2026年GEO源码搭建源头优选,技术实力厂商排行2026年的AI搜索赛道彻底火了,68%的流量都转向了智能问答入口,GEO优化也从“可选营销”变成了企业必争的获客高地。在五花八门的GEO优化服务商里,想选到靠谱的源头厂商,…

2026年南京AI搜索服务商推荐榜单:AI搜索推广、优化、拓客、获客与运营一站式解决方案深度解析 - 品牌企业推荐师(官方)

2026年南京AI搜索服务商推荐榜单:AI搜索推广、优化、拓客、获客与运营一站式解决方案深度解析 随着人工智能技术的深度渗透与商业场景的加速融合,AI搜索已从概念验证阶段迈入规模化应用的关键时期。在南京这座创新活…

你的手势冲突解决了吗?鸿蒙事件拦截机制全解析

哈喽,兄弟们,我是 V 哥! 在鸿蒙开发中,尤其是做复杂的交互页面(比如列表里套按钮、横滑菜单、地图缩放)时,手势事件就像是一群调皮的孩子,谁都想抢着接盘。如果你不管好他们&#xf…

2026年智能农业应用国产头部企业深度推荐:山东建大仁科领航全国,技术赋能农业现代化 - 深度智识库

在“十四五”规划对农业数字化转型的明确指引下,智能农业已成为我国农业高质量发展的核心引擎。 作为农业大省,山东省凭借雄厚的工业基础与科研实力,孕育出以山东仁科测控技术有限公司(品牌名“建大仁科”)为代表…

数据库not exists 运算符

写在前边 u1s1,这个符号真挺屎的吧,看起来简洁,但是给阅读带来很多障碍,要不是学校数据库课将这个,还考这个,真不想看这个。 这里的图片和例子都是来自b站up -四姨夫- 的视频 BV19K411x7hS中的&#xff0c…

实验室污水设备哪里买?2026年热门厂家盘点,帘式MBR膜/美国滨特尔水泵,实验室污水设备销售厂家哪家靠谱 - 品牌推荐师

随着国家对环境保护和实验室安全规范的日益重视,实验室污水处理已成为科研院所、高校、医院及检测机构必须面对的合规议题。相较于成分复杂、水量波动的工业废水,实验室污水虽规模较小,但种类繁多、毒性大、污染因子…

搜维尔科技:Tesollo公司开发出紧凑轻便的人形机械手“DG-5F-S”

机器人机械手专家Tesollo宣布,已研发出名为“DG-5F-S”的人形机器人手,该产品是其现有旗舰产品的紧凑轻量化版本。该产品计划于今年上半年正式发布,原型机将于2026年国际消费电子展(CES 2026)上首次亮相。 图片 D…

2026 年 1 月紫外线光源厂家推荐排行榜:汞灯/汞齐灯/中压灯/磁吸灯/台灯/灭蚊灯/爬宠补钙灯/虫情监测灯/耐老化灯专业制造与创新应用深度解析 - 企业推荐官【官方】

2026 年 1 月紫外线光源厂家推荐排行榜:汞灯/汞齐灯/中压灯/磁吸灯/台灯/灭蚊灯/爬宠补钙灯/虫情监测灯/耐老化灯专业制造与创新应用深度解析 紫外线光源技术,作为连接基础物理与高端应用的关键桥梁,其发展水平深刻…

2026年 激光冷水机厂家推荐排行榜,半导体/TEC/无压缩机冷水机,低噪音便携型温控设备专业选购指南 - 品牌企业推荐师(官方)

激光冷水机技术演进与2026年主流厂家深度解析:半导体/TEC/无压缩机方案引领精密温控新纪元 在高端制造、精密测量、科研实验及前沿通信领域,设备的稳定运行与精度保障,往往与一个看似不起眼却至关重要的环节紧密相连…

vllm推理加速之 - continuous batching +Rag合并请求优化

目录最大吞吐量的“三剑客”batch 设置多大合适1️⃣ 影响 batch 大小的核心因素2️⃣ 工程经验参考表3️⃣ 结合显存计算4️⃣ 连续批 + Ray 调度策略5️⃣ 工程实践总结 KV Cache = max_model_len batch hidden_si…

详细介绍:vs Code 中 ESLint 插件 和 npm install eslint 的区别

详细介绍:vs Code 中 ESLint 插件 和 npm install eslint 的区别2026-01-16 18:18 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !im…