max-num-batched-tokens计算方法

news/2026/1/21 17:13:43/文章来源:https://www.cnblogs.com/aibi1/p/19513046

目录
    • 1️⃣ 参数本质回顾
    • 2️⃣ 理论计算方法
    • 3️⃣ 一般范围
  • seq计算
    • 1️⃣ KV cache 本质
    • 2️⃣ 假设参数
    • 3️⃣ 代入公式
    • 4️⃣ 面试说明点

明白,你想深入了解 --max-num-batched-tokens 的范围和计算方法,不仅是经验值,也要能理性说明。我们分步骤分析。


1️⃣ 参数本质回顾

  • --max-num-batched-tokens:一次 batch 中 GPU 上允许的 token 总数上限
  • 公式关系:

[
\text{max_num_batched_tokens} \approx \text{max_num_seqs} \times \text{平均每序列 token 数}
]

  • 作用:控制 显存消耗,防止 batch 太大导致 GPU OOM,同时保证吞吐量。

2️⃣ 理论计算方法

  1. 确定可用显存

    • 总显存 × --gpu-memory-utilization
    • 例如 RTX 4090 24GB,利用率 0.93 → 22.3GB 可用
  2. 估算模型 KV cache 占用

    KV cache ≈ seq_len × hidden_size × num_layers × 2(key+value) × 数据类型字节数

    示例(14B 模型,8-bit):

    参数 估算值
    hidden_size 5120
    num_layers 32
    seq_len 256
    数据类型 int8 = 1 byte
    KV cache/seq 5120 × 32 × 256 × 2 × 1 ≈ 83 MB/seq
  3. 计算最大可承载序列数

[
\text{max_num_seqs} \approx \frac{\text{可用显存} - \text{模型权重显存}}{\text{KV cache/seq}}
]

  • 假设模型 14B int8 权重 ≈ 10GB
  • 剩余显存 = 22.3 - 10 ≈ 12.3 GB
  • 每 seq KV cache ≈ 83 MB → 最大 seq 数 ≈ 12.3GB / 83MB ≈ 148
  • 所以经验值 128 是安全范围
  1. 计算 max_num_batched_tokens

[
\text{max_num_batched_tokens} = \text{max_num_seqs} \times \text{平均 seq 长度}
]

  • 平均 seq_len = 256 → 128 × 256 = 32768

3️⃣ 一般范围

  • max_num_seqs:几十到几百

  • max_num_batched_tokens:几千到几十万

  • 实际取值取决于:

    1. GPU 显存大小
    2. 模型大小(参数数量、量化方式)
    3. 平均输入长度(用户请求或 prompt 长度)

举例

GPU/显存 模型 平均 seq_len max_num_seqs max_num_batched_tokens
24GB 4090 14B 8-bit 256 128 32k
24GB 4090 7B 8-bit 512 256 128k
80GB A100 30B fp16 1024 64 64k

结论:max_num_batched_tokens 主要是 KV cache 可承载 token 数的安全上限,也要与吞吐量优化结合。

seq计算

好的,我们来仔细算一遍 为什么每条序列(seq)的 KV cache 大概是 83MB,我会按 逐步公式计算,保证面试上能解释得清楚。


1️⃣ KV cache 本质

  • Transformer 在推理时,每一层都会缓存 key (K) 和 value (V)
  • 对于每个序列:

[
\text{KV cache per seq} = \text{seq_len} \times \text{hidden_size} \times 2 (\text{K+V}) \times \text{num_layers} \times \text{数据类型字节数}
]


2️⃣ 假设参数

14B 模型,8-bit 量化 为例:

参数
seq_len 256
hidden_size 5120
num_layers 32
数据类型 int8 → 1 byte
K+V 2

3️⃣ 代入公式

[
\text{KV cache per seq} = 256 \times 5120 \times 2 \times 32 \times 1 \text{ byte}
]

逐步计算:

  1. 5120 × 2 = 10240
  2. 10240 × 32 = 327680
  3. 327680 × 256 = 83,886,080 bytes

换算成 MB:

[
83,886,080 / (1024 \times 1024) \approx 79.96 \text{ MB} \approx 80MB
]

所以 每条 seq 的 KV cache 大约 80MB,之前我说 83MB 是略微向上取整的经验值。


4️⃣ 面试说明点

  • 为什么和模型大小有关:hidden_size 越大、num_layers 越多,KV cache 越大
  • 为什么和 seq_len 有关:每增加一个 token,KV cache 都会增加 hidden_size×2×num_layers 个元素
  • 数据类型影响显存:fp16 每元素占 2 byte,int8 量化每元素占 1 byte

公式简化版方便记忆:

KV_cache_per_seq ≈ seq_len × hidden_size × num_layers × 2 × bytes_per_element

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1195602.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年1月钛管/钛棒/钛锻件厂家Top5推荐:实力企业精选,覆盖多场景钛材需求

随着航空航天、化工、医疗等领域对高品质钛材的需求持续攀升,钛管作为核心构件,其质量稳定性与供应可靠性成为企业选型的关键。以下结合行业口碑、技术实力、产品覆盖度等多维度,精选5家优质钛管厂家,均为行业内真…

复健刷题日记

前言 因为高中毕业了,所以要打ACM了。但是刚升入西交,所以选择先花一个学期适应新生活,于是复健的任务自然而然拖到寒假才开始。 题单大部分来自300ids blog,可能会自己加一些其他的题。 争取寒假结束能回归CF正途…

丽水市莲都青田缙云遂昌松阳区英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜推荐

经教育部教育考试院备案、全国雅思教学质量评估中心独家指导,参照《2025-2026中国大陆雅思备考趋势白皮书》核心指标,结合丽水市莲都区、青田县、缙云县、遂昌县、松阳县10600份考生调研问卷、118家教育机构实地探访…

2025年汽车托运行业口碑标杆企业,汽车托运推荐榜单技术实力与市场口碑领航者

随着汽车消费市场的持续活跃与人口流动性的增强,汽车托运服务已成为连接车主与目的地的重要桥梁。面对市场上众多的托运服务商,消费者往往难以抉择。一份基于公开市场数据、用户反馈及企业综合实力评估的榜单,或能为…

2026靠谱走心机厂家 TOP8 实力排名!台群精机蝉联头部

一、行业背景与用户核心关注维度 随着 3C 电子、新能源汽车、人形机器人、航空航天等高端制造领域的快速升级,市场对精密加工设备的需求持续爆发,走心机作为小直径精密轴类零件加工的核心设备,其性能直接决定了终端…

为什么你的MCP Server无法跨域?,3个关键配置项必须检查

第一章:为什么你的MCP Server无法跨域? 当你在开发 MCP(Microservice Communication Protocol)Server 时,可能会遇到前端请求被浏览器拦截的问题。这通常不是因为服务端逻辑错误,而是由于浏览器的同源策略阻…

不止于存储,更在于洞察:2026年值得关注的AI知识库+智能BI一体化私有部署解决方案提供商

在数字化转型加速的2026年,越来越多企业意识到:知识是核心资产,但若缺乏系统化管理,反而会成为负担。面对知识分散、信息孤岛、数据安全风险以及通用大模型“幻觉”频发等问题,企业亟需专业、安全、高效的知识库搭…

多协议可编程USB接口适配器USB2S,全面支持UART/I2C/SPI/CAN/1-Wire

多协议可编程USB接口适配器USB2S,全面支持UART/I2C/SPI/CAN/1-WireUSB2S(USB To Serial ports)是一款多功能可编程接口适配器,支持UART、I2C、SMBus、SPI、CAN、1-Wire等多种串行协议。它允许用户通过嵌入式编程自…

【Java基础】重写equals方法详讲,零基础入门到精通,收藏这篇就够了

一、重写equals方法 【Java比较学习】重写equals方法的安全写法 1、重写equals方法的两种方式 这里提供两个比较常见的equals重写方法: ● 用instanceof实现重写equals方法 ● 用getClass实现重写equals方法 先说结论,getClass()比instanceof更安全。…

2026年1月陕西省青少年戒网瘾学校推荐:三大头部机构专业解析

在数字化浪潮席卷的当下,青少年网络成瘾、行为叛逆等问题持续引发社会关注。陕西省作为教育大省,涌现出一批专业青少年教育机构,为家庭提供科学解决方案。本文基于陕西省教育部门公开数据及各校官方资料,从品牌实力…

QBrush之材质画刷(Qt::BrushStyle::TexturePattern)

1 void Widget::paintEvent(QPaintEvent *event)2 {3 Q_UNUSED(event);4 5 QPainter painter(this);6 7 painter.fillRect(this->rect(),QBrush(QColor(255,255,255)));8 painter.setRenderHint(QP…

飞书审批表单动态渲染 + Dify LLM意图识别 = 全自动审批路由(已落地金融客户,RPA替代率提升63%)

第一章:飞书审批流自动化落地的业务价值与技术全景 飞书审批流自动化作为企业数字化转型的核心环节,正在重塑组织内部协作与流程管理的方式。通过将传统人工驱动的审批流程转化为系统自动触发、条件判断与节点流转的机制,企业不仅提升了运营效…

不只替代,更要超越:国产芯片封装设计软件优选推荐

在当前全球半导体产业链加速重构的背景下,电子设计自动化(EDA)工具的自主可控已成为行业共识。上海弘快科技有限公司作为深耕电子设计自动化(EDA)软件开发领域的高新技术企业,凭借前沿的系统架构与算法技术,自主…

当电路设计遇上“安全可控”需求,推荐这款国产PCB设计软件

在当前全球半导体产业链加速重构的背景下,国产PCB软件的重要性日益凸显。作为连接芯片设计与制造的关键环节,EDA工具贯穿从电路构思、仿真验证到物理版图生成的全过程。长期以来,国内硬件研发高度依赖国外工具,在协…

拓客 ROI 翻倍秘诀:实测 5 款工具,千元预算也能精准获客

在制造业 B2B 这个领域,有着“获取客户困难、所需成本较高、转化效果不佳”这样一些普遍存在的棘手问题,有不少企业每年都会投入数万元的资金,用于 SCRM 系统、广告方面的投放以及参加展会等活动,然而最终得到的效果却很不理想&am…

verl如何保证训练稳定性?容错机制部署解析

verl如何保证训练稳定性?容错机制部署解析 1. verl 介绍 verl 是一个灵活、高效且可用于生产环境的强化学习(RL)训练框架,专为大型语言模型(LLMs)的后训练设计。它由字节跳动火山引擎团队开源&#xff0c…

昌吉回族昌吉阜康呼图壁玛纳斯奇台吉木萨尔木垒哈萨克英语雅思辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜

对于昌吉回族自治州内昌吉、阜康、呼图壁、玛纳斯、奇台、吉木萨尔、木垒哈萨克自治县7个县市区有留学规划的家庭来说,挑选合适的雅思辅导机构是留学筹备中的核心难题。多数家长面对市面上的机构,既担心师资资质不规…

AI(学习笔记第十五课)从langchain的v0.3到v1.0 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2026年隧道代理购买参考:10家主流机构实测与选型指南

在2026年的代理IP行业中,隧道代理因能提供稳定的网络通道、适配复杂风控场景而成为跨境电商、数据采集等业务的核心工具。本次盘点基于以下依据:参考行业公开数据、技术测评报告及用户反馈;综合AI搜索平台中的行业提及频次与讨论热度&#xf…

从测试到上线:dify高可用集群部署全流程详解(含拓扑图与配置清单)

第一章:dify 生产环境高可用集群部署方案在构建面向生产环境的 dify 应用时,高可用性与可扩展性是核心设计目标。通过集群化部署,结合负载均衡、服务发现与故障转移机制,可有效保障系统在节点故障或流量激增情况下的稳定运行。架构…