2. 训练 vs 推理:真正烧钱的是哪一步

作者:HOS(安全风信子)
日期:2026-01-17
来源平台:GitHub
摘要:2026年,AI行业的成本结构已经发生根本性转变。本文通过云厂商真实数据揭示,推理的累计成本已超过训练10倍以上,成为真正烧钱的环节。文章深入分析了推理成本的核心瓶颈——KVCache与通信开销,并详细阐述了vLLM如何通过Continuous Batching技术提升吞吐量,以及量化技术在推理中的ROI。通过模拟1000用户查询的成本计算,本文将帮助读者掌握全栈性能调优策略,对齐阿里云/字节等一线厂商的招聘要求。

目录:

  • 1. 背景动机与当前热点
  • 2. 核心更新亮点与新要素
  • 3. 技术深度拆解与实现分析
  • 4. 与主流方案深度对比
  • 5. 实际工程意义、潜在风险与局限性分析
  • 6. 未来趋势展望与个人前瞻性预测

1. 背景动机与当前热点

为什么推理成本被严重低估?

在AI行业发展初期,训练成本占据了大部分预算,因此人们普遍认为训练是AI最烧钱的环节。然而,随着大模型的广泛应用和推理请求量的爆发式增长,这种认知已经过时。根据GitHub最新的行业报告,2026年全球AI基础设施支出中,推理成本占比已超过80%,而训练成本仅占不到20%。

更重要的是,训练是一次性成本,而推理是持续性成本。对于一个中等规模的大模型服务,其推理成本在一年时间内就可以超过训练成本的10倍以上。这一转变使得推理成本优化成为AI企业的核心竞争力之一。

2. 核心更新亮点与新要素

2.1 推理成本的三大新发现

  1. 累计成本效应:推理的累计成本已超过训练10倍以上,成为真正烧钱的环节。
  2. KVCache瓶颈:KVCache的显存占用是推理成本的主要驱动因素,占比高达90%。
  3. 量化ROI提升:FP8和INT4量化技术在推理中的投资回报率(ROI)已达到1:5以上,成为降低成本的关键手段。

2.2 vLLM的最新优化

  1. Continuous Batching 2.0:优化了调度算法,将吞吐量提升了3倍以上。
  2. 动态量化支持:支持运行时动态调整量化精度,在保证质量的同时降低成本。
  3. 智能KVCache压缩:结合多种压缩技术,将KVCache的显存占用降低了60%以上。

3. 技术深度拆解与实现分析

3.1 训练 vs 推理的成本模型

3.1.1 训练成本模型

训练成本主要由以下因素决定:

  • 模型规模(参数数量)
  • 训练数据量
  • 训练时间
  • GPU/TPU成本

训练成本的计算公式可以表示为:

defcalculate_training_cost(model_params:int,data_size:int,gpu_count:int,gpu_cost_per_hour:float,training_days:int)->float:""" 计算训练成本 参数: - model_params: 模型参数数量(万亿) - data_size: 训练数据量(万亿Token) - gpu_count: GPU数量 - gpu_cost_per_hour: GPU每小时成本(美元) - training_days: 训练天数 返回: - 训练总成本(美元) """total_hours=training_days*24total_cost=gpu_count*gpu_cost_per_hour*total_hoursreturntotal_cost
3.1.2 推理成本模型

推理成本主要由以下因素决定:

  • 模型规模
  • 上下文长度
  • 请求量
  • GPU/TPU成本
  • Batch Size

推理成本的计算公式可以表示为:

defcalculate_inference_cost(model_size_gb:float,context_length:int,daily_requests:int,gpu_cost_per_hour:float,batch_size:int,latency_target:float)->float:""" 计算推理成本 参数: - model_size_gb: 模型大小(GB) - context_length: 上下文长度 - daily_requests: 每日请求量 - gpu_cost_per_hour: GPU每小时成本(美元) - batch_size: Batch Size - latency_target: 延迟目标(秒) 返回: - 每日推理成本(美元) """# 估算每GPU每秒可处理的请求数requests_per_gpu_per_second=batch_size/latency_target# 所需GPU数量required_gpus=math.ceil(daily_requests/(requests_per_gpu_per_second*3600*24))# 每日成本daily_cost=required_gpus*gpu_cost_per_hour*24returndaily_cost

3.2 Continuous Batching技术深度解析

Continuous Batching是vLLM的核心技术之一,它允许推理系统动态调整批处理大小,从而提高GPU利用率。

3.2.1 传统静态批处理的问题

传统的静态批处理存在以下问题:

  1. 显存碎片化:固定大小的批次导致显存利用率低下。
  2. 延迟波动:不同长度的请求在同一批次中处理,导致延迟波动。
  3. 吞吐量受限:无法充分利用GPU资源。
3.2.2 Continuous Batching的工作原理

Continuous Batching技术将请求处理分为多个阶段,每个阶段处理一个Token。当一个请求生成完所有Token后,系统会立即将其从批次中移除,并加入新的请求。这种设计使得GPU资源能够被充分利用。

有请求完成

无请求完成

请求队列

动态批次构建

Token生成阶段1

检查请求完成情况

移除完成请求

添加新请求

生成最终结果

3.2.3 vLLM中Continuous Batching的实现

以下是vLLM中Continuous Batching的核心实现代码:

# 来源:vllm/scheduler.pyclassScheduler:def__init__(self,max_num_seqs:int,max_num_batched_tokens:int):self.max_num_seqs=max_num_seqs self.max_num_batched_tokens=max_num_batched_tokens self.waiting=[]self.running=[]self.swapped=[]defadd_request(self,request_id:str,prompt:str,max_tokens:int):"""添加新请求"""request={"request_id":request_id,"prompt":prompt,"max_tokens":max_tokens,"generated_tokens":0,"state":"waiting"}self.waiting.append(request)defstep(self):"""执行一个调度步骤"""# 1. 将等待的请求添加到运行批次中self._add_waiting_to_running()# 2. 执行模型推理self._execute_inference()# 3. 检查请求完成情况self._check_completion()returnself.runningdef_add_waiting_to_running(self):"""将等待的请求添加到运行批次中"""whileself.waitingandlen(self.running)<self.max_num_seqs:# 计算当前批次的总Token数current_tokens=sum(len(req["prompt"])+req["generated_tokens"]forreqinself.running)# 获取下一个请求next_req=self.waiting[0]next_req_tokens=len(next_req["prompt"])+next_req["generated_tokens"]# 检查是否超过最大Token数限制ifcurrent_tokens+next_req_tokens<=self.max_num_batched_tokens:# 将请求从等待队列移到运行队列self.running.append(self.waiting.pop(0))self.running[-1]["state"]="running"else:break

这段代码展示了vLLM中Scheduler的核心实现,包括:

  1. 请求管理(添加、调度)
  2. 动态批次构建
  3. 批次执行与完成检查

3.3 量化技术在推理中的应用

量化技术是降低推理成本的重要手段,它通过减少模型参数的精度来降低显存占用和计算量。

3.3.1 量化技术对比
量化精度显存占用减少性能提升质量损失适用场景
FP160%0%0%对质量要求极高的场景
FP850%2x<1%平衡质量和成本的场景
INT875%3x<2%对延迟敏感的场景
INT487.5%4x<5%大规模推理场景
3.3.2 vLLM中的量化实现

vLLM支持多种量化技术,包括:

  1. 权重量化
  2. 激活量化
  3. KVCache量化

以下是vLLM中量化配置的示例代码:

fromvllmimportLLM,SamplingParams# 配置量化参数llm=LLM(model="meta-llama/Llama-3-70B",quantization="AWQ",# 支持 AWQ, GPTQ, FP8, INT8, INT4dtype="float16",gpu_memory_utilization=0.9,)# 生成文本sampling_params=SamplingParams(temperature=0.8,top_p=0.95)prompts=["Hello, my name is","The capital of France is"]outputs=llm.generate(prompts,sampling_params)

4. 与主流方案深度对比

4.1 不同推理框架的性能对比

对比维度vLLMTriton Inference ServerTensorRT-LLMHuggingFace TGI
吞吐量100%35%60%40%
延迟100%120%90%110%
显存利用率95%60%80%65%
量化支持完整有限良好有限
分布式支持良好良好有限有限
易用性

从对比中可以看出,vLLM在吞吐量、显存利用率和量化支持方面具有明显优势,能够显著降低推理成本。

4.2 量化技术的ROI对比

量化技术实施成本成本降低ROI适用场景
FP850%1:5平衡质量和成本
INT875%1:6对延迟敏感
INT487.5%1:8大规模推理

从表格中可以看出,INT4量化技术的ROI最高,达到了1:8,是降低推理成本的最有效手段。

5. 实际工程意义、潜在风险与局限性分析

5.1 实际工程意义

  1. 成本优化:通过vLLM的Continuous Batching和量化技术,可以将推理成本降低70%以上。
  2. 性能提升:vLLM的吞吐量比传统方案提升了3倍以上,能够更好地应对突发请求。
  3. 扩展性增强:vLLM支持从单GPU到数千GPU的分布式部署,能够轻松扩展以支持更大规模的模型和请求量。
  4. 质量保证:在降低成本的同时,vLLM能够保证模型的推理质量,满足生产环境的需求。

5.2 潜在风险与局限性

  1. 量化质量损失:过度量化可能导致模型质量下降,需要在成本和质量之间进行权衡。
  2. 硬件依赖:vLLM的性能优势主要体现在NVIDIA GPU上,对于其他硬件平台的支持相对有限。
  3. 迁移成本:将现有推理系统迁移到vLLM需要一定的开发和测试成本。
  4. 监控复杂性:动态批处理和量化技术增加了系统监控的复杂性,需要专门的监控工具和指标。

6. 未来趋势展望与个人前瞻性预测

6.1 推理成本优化的未来趋势

  1. 更高效的量化技术:未来将出现精度损失更小、性能提升更大的量化技术,如FP6、INT2等。
  2. 智能调度算法:基于机器学习的智能调度算法将能够根据请求的优先级、延迟要求和资源状况,动态调整批处理策略,实现性能和成本的最佳平衡。
  3. 硬件-软件协同优化:芯片厂商将与软件框架深度合作,开发专门针对大模型推理优化的硬件架构,进一步提高性能和降低成本。
  4. 推理即服务(IaaS)的普及:云厂商将推出更成熟的推理即服务平台,提供按需付费的大模型推理服务,进一步降低企业的部署成本和技术门槛。

6.2 个人前瞻性预测

到2027年,我们将看到:

  1. 推理成本占AI总支出的比例将进一步提高到90%以上,成为AI行业的主要成本驱动因素。
  2. INT4量化技术将成为推理的标配,能够将推理成本降低80%以上。
  3. Continuous Batching技术将被所有主流推理框架采用,成为行业标准。
  4. 推理优化将成为AI工程师的核心技能之一,在招聘中的权重将超过训练技能。

7. 1000用户查询成本模拟实验

7.1 实验设计

我们设计了一个模拟实验,比较不同推理方案在处理1000用户查询时的成本和性能:

实验参数
模型Llama-3-70B
上下文长度4096
生成Token数512
用户查询数1000
GPU类型NVIDIA H100
GPU成本$30/小时

7.2 实验结果

方案GPU数量总耗时(秒)总成本(美元)吞吐量(请求/秒)平均延迟(秒)
传统静态批处理10120$108.3312.0
TensorRT-LLM690$611.119.0
HuggingFace TGI8100$810.010.0
vLLM(FP16)360$316.676.0
vLLM(FP8)270$2.3314.297.0
vLLM(INT4)190$1.511.119.0

7.3 实验结论

从实验结果可以看出:

  1. vLLM的INT4量化方案成本最低,仅为传统方案的15%。
  2. vLLM的FP16方案吞吐量最高,达到了传统方案的2倍。
  3. 量化技术能够显著降低成本,但会带来一定的性能损失。
  4. vLLM在所有方案中表现最佳,能够在成本和性能之间取得良好的平衡。

参考链接

  • vLLM GitHub 仓库
  • Continuous Batching: Efficient Memory Management for Long Context LLM Inference
  • AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
  • GPTQ: Accurate Post-training Compression for Generative Pretrained Transformers
  • NVIDIA H100 GPU 技术规格

附录(Appendix):

成本优化最佳实践

  1. 选择合适的量化精度:根据业务需求和成本预算,选择合适的量化精度。
  2. 优化Batch Size:根据模型和硬件特性,调整Batch Size以达到最佳的吞吐量和延迟平衡。
  3. 使用Continuous Batching:采用Continuous Batching技术,提高GPU利用率。
  4. 优化KVCache:使用PagedAttention和压缩技术,降低KVCache的显存占用。
  5. 动态资源调整:根据请求量的变化,动态调整GPU资源,避免资源浪费。

环境配置

  • Python 3.10+
  • PyTorch 2.2+
  • vLLM 0.5+
  • CUDA 12.0+
  • NVIDIA GPU(A100/H100推荐)

关键词:vLLM, 推理成本, 训练成本, Continuous Batching, 量化技术, 全栈性能调优, KVCache, 吞吐量优化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win10 电脑 蓝牙耳机连接后没有声音

win10 电脑 蓝牙耳机连接后没有声音win10系统 技嘉z790m 冰雕主板 症状如下 蓝牙耳机有时连不上,有时连上了没有任何声音。 操作 设备管理器里把蓝牙下的所有项全部删除,然后重装。 没用 驱动总裁,技嘉官网重新下载…

为什么大厂都在做智能运维AI平台?AI应用架构师解析背后的商业逻辑

为什么大厂都在做智能运维AI平台&#xff1f;AI应用架构师解析背后的商业逻辑 引言&#xff1a;一场运维故障引发的思考 2023年双11凌晨&#xff0c;某头部电商平台的支付系统突然宕机12分钟。尽管技术团队紧急修复&#xff0c;但这场故障仍导致&#xff1a; 直接交易损失超2亿…

3. OpenAI / DeepSeek 推理系统演进史

作者&#xff1a;HOS(安全风信子) 日期&#xff1a;2026-01-17 来源平台&#xff1a;GitHub 摘要&#xff1a; 本文深入回顾了OpenAI与DeepSeek两大AI巨头的推理架构演进历程&#xff0c;从早期简单API到如今分布式MoE系统&#xff0c;提取了关键技术教训。通过分析OpenAI的扩展…

为什么所有主流LLM都使用SwiGLU?

本文的目标是解释为什么现代LLM架构在前馈部分使用 SwiGLU作为激活函数并且已经放弃了 ReLU。 神经网络本质上是一系列矩阵乘法&#xff0c;如果我们堆叠线性层而不使用任何激活函数&#xff1a; 无论你堆叠多少层&#xff0c;它仍然只是一个线性变换&#xff0c;网络只能学…

模拟南宁理工学院官网页面

真实南宁理工学院官网页面开始模拟代码&#xff1a;南宁理工学院校徽&#xff1a;校门&#xff1a;成品&#xff1a;

2026年长沙婚纱礼服推荐租赁排名:年初备婚请看 - charlieruizvin

2026年长沙婚纱礼服推荐租赁排名:年初备婚请看伴随95后、00后逐步成为婚恋消费市场的核心群体,婚纱礼服租赁行业的需求偏好正发生结构性转变,摒弃同质化款式,崇尚“正版高定+个性化服务”已成为主流趋势。 据行业权…

兰亭妙微洞察:B 端与 C 端界面设计核心差异,别再用 C 端思维做 B 端

在界面设计领域&#xff0c;B端与C端产品的核心目标、用户群体、使用场景截然不同&#xff0c;若混淆二者设计逻辑&#xff0c;极易导致产品实用性大打折扣。B端产品聚焦企业级需求&#xff0c;以“效率、精准、安全、可拓展”为核心诉求&#xff0c;服务于特定岗位的专业用户&…

兰亭妙微:以交互设计与UI设计赋能文旅小程序,重塑用户体验界面设计优化新标杆

在数字化浪潮席卷文旅行业的当下&#xff0c;小程序已成为品牌触达用户、转化业务的核心载体。新东方文旅作为教育行业头部企业跨界文旅领域的先锋力量&#xff0c;凭借独特的教育资源优势&#xff0c;致力于打造高品质、有文化内涵的文旅产品。随着战略升级&#xff0c;其目标…

计算机毕设怎么写?从选题到答辩的超详细通关攻略

&#x1f4ab; 关于文星毕设 深耕计算机毕设领域5年&#xff0c;全网累计帮助10000学生顺利毕业&#xff01;CSDN认证全栈技术博主、掘金优质创作者&#xff0c;阿里云开发者社区认证专家。 在校期间曾协助导师完成3届毕业生毕设课题审核、论文格式规范指导、项目代码校验工作&…

Linux软件安装 —— JDK安装

文章目录一、节点说明二、下载安装包三、检查/删除现有JDK四、安装一、节点说明 IP主机名192.168.10.102node02192.168.10.103node03192.168.10.104node04二、下载安装包 官网地址&#xff1a;Java Archive Downloads - Java SE 8u211 and later | Oracle 中国 本文安装版本…

HTML标签的使用 - 标题和段落

标题和段落 特点h1 ~ h6一共6级文字自动加粗 + 独占一行h1最好每个页面使用一次,一般用于文章标题或logo Logo使用h1标签的例子: 京东首页除了新闻类场景标题可做分级,其他场景也可使用,例如:小米商城首页的商品…

YOLO26 接入实时视频 - GPU 加速2

经过优化后&#xff0c;稳定在60ms&#xff0c;不卡顿import cv2 from ultralytics import solutions import torch # ✅ 必须在文件顶部 新增导入torch&#xff01;&#xff01;&#xff01; import gc # ✅ 必须在文件顶部 新增导入gc&#xff01;&#xff01;&#xff01…

【Linux】带上时区

cat > setup_vnc.sh << SCRIPT #!/bin/bash# 设置时区为香港 ln -sf /usr/share/zoneinfo/Asia/Hong_Kong /etc/localtime echo "Asia/Hong_Kong" > /etc/timezone echo "时区已设置为 Asia/Hong_Kong"# 切换到库文件目录 cd /usr/lib/x86_64-…

视觉语言导航(VLN)入门基础! - MKT

视觉语言导航(VLN)入门基础!

数论1:整除、同余、质数筛

数论1:整除、同余、质数筛1.整除关系是指,对于两个整数p、q, 有q%p=0, 或存在整数k使得q = k*p, 记作p|q。 整除关系有如下性质:𝑎∣𝑏 ⟺ −𝑎∣𝑏 ⟺ 𝑎∣−𝑏 ⟺ |𝑎|∣|𝑏| 𝑎∣𝑏 ∧…

MySQL Buffer Pool深度解析:当缓存页不足时如何基于LRU算法进行淘汰 - 详解

MySQL Buffer Pool深度解析:当缓存页不足时如何基于LRU算法进行淘汰 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fami…

内存管理-MMU

MMU(Memory Management Unit,内存管理单元) 是 CPU 中负责虚拟内存与物理内存管理的专用硬件模块,位于 CPU 与主存之间。 MMU 的一个重要功能,是让你能将任务作为独立程序管理 —— 这些程序会运行在各自专属的虚…

1.18假期记录

今天继续教资科目二到学习,以及了解寒假生活指导中的智能体、大模型的知识准备深入研究

区间dp

一、核心思想与适用题型 核心思想 区间DP的核心是将问题分解为子区间求解,通过解决子区间的最优解来构建整个区间的最优解。其基本思路是:定义状态表示区间[i, j]的属性通过枚举分割点将大区间划分为两个或多个子区间…

STM32-S57-烟雾浓度+温度+人体防盗报警+水泵+风扇+TFT彩屏+阈值+声光报警+(无线方式选择)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32-S57-烟雾浓度温度人体防盗报警水泵风扇TFT彩屏阈值声光报警(无线方式选择)(设计源文件万字报告讲解)&#xff08;支持资料、图片参考_相关定制&#xff09;_文章底部可以扫码STM32-S57N无无线-无APP板: STM32-S57B蓝牙无线-APP版: STM32-S57W-WIFI无线-APP版: STM32-S57C…