3. OpenAI / DeepSeek 推理系统演进史

作者:HOS(安全风信子)
日期:2026-01-17
来源平台:GitHub
摘要:本文深入回顾了OpenAI与DeepSeek两大AI巨头的推理架构演进历程,从早期简单API到如今分布式MoE系统,提取了关键技术教训。通过分析OpenAI的扩展性挑战和DeepSeek的高效KVCache管理,本文揭示了推理系统设计的核心原则。文章详细阐述了vLLM如何吸收这些经验,将PagedAttention技术应用于现代推理系统,并预测了2027年推理架构的演进趋势。这将帮助工程师设计2026级系统,对齐模型厂商JD中的"历史洞察与创新"能力要求。

目录:

  • 1. 背景动机与当前热点
  • 2. 核心更新亮点与新要素
  • 3. 技术深度拆解与实现分析
  • 4. 与主流方案深度对比
  • 5. 实际工程意义、潜在风险与局限性分析
  • 6. 未来趋势展望与个人前瞻性预测

1. 背景动机与当前热点

为什么要研究推理系统的演进史?

历史是最好的老师,尤其是在快速发展的AI领域。研究OpenAI和DeepSeek等领先公司的推理系统演进史,可以帮助我们:

  1. 理解技术发展规律:从早期简单架构到如今复杂的分布式系统,推理系统的发展遵循着一定的规律和逻辑。
  2. 学习成功经验:借鉴领先公司的成功经验,避免重复造轮子。
  3. 吸取失败教训:了解过去的技术瓶颈和解决方案,避免重蹈覆辙。
  4. 预测未来趋势:基于历史演进,预测未来推理系统的发展方向。

2026年,随着MoE模型和1M+上下文长度的普及,推理系统面临着前所未有的挑战。研究历史演进可以为设计新一代推理系统提供宝贵的参考。

2. 核心更新亮点与新要素

2.1 推理系统演进的三个阶段

阶段时间核心技术代表系统主要挑战
1.02018-2021静态批处理、简单APIOpenAI GPT-3 API吞吐量低、延迟高
2.02022-2024动态批处理、KVCache优化OpenAI ChatGPT、DeepSeek-R1显存碎片化、扩展性差
3.02025-2026分布式MoE、PagedAttentionOpenAI GPT-5、DeepSeek-V2通信开销大、资源调度复杂

2.2 两大巨头的技术路线对比

  1. OpenAI:从单模型单GPU到分布式MoE,注重扩展性和通用性
  2. DeepSeek:从高效KVCache管理到混合专家模型,注重性能和成本优化

3. 技术深度拆解与实现分析

3.1 OpenAI推理系统演进

3.1.1 GPT-3时代(2020-2022):简单API架构

GPT-3时代的推理系统采用了简单的API架构:

  • 核心组件:API网关、负载均衡器、推理服务器集群
  • 批处理策略:静态批处理
  • 显存管理:简单的固定分配
  • 扩展性:有限,主要通过增加GPU数量扩展

架构图:

客户端请求

API网关

负载均衡器

推理服务器1

推理服务器2

推理服务器N

GPT-3模型

这个架构的主要问题是:

  1. 静态批处理导致吞吐量低
  2. 显存碎片化严重
  3. 扩展性有限,无法支持大规模模型
3.1.2 ChatGPT时代(2022-2024):动态批处理与KVCache优化

ChatGPT时代,OpenAI引入了多项关键优化:

  • 动态批处理:根据请求长度动态调整批处理大小
  • KVCache优化:引入更高效的KVCache管理机制
  • 模型并行:支持张量并行和流水线并行
  • 推理加速:使用CUDA Graph和Kernel Fusion等技术

核心代码示例(KVCache优化):

classKVCache:def__init__(self,max_seq_len,num_heads,head_dim):self.max_seq_len=max_seq_len self.num_heads=num_heads self.head_dim=head_dim# 预分配连续显存self.k_cache=torch.empty((max_seq_len,num_heads,head_dim),dtype=torch.float16,device="cuda")self.v_cache=torch.empty((max_seq_len,num_heads,head_dim),dtype=torch.float16,device="cuda")# 跟踪已使用的序列长度self.current_len=0defupdate(self,k,v):"""更新KVCache"""batch_size,num_heads,seq_len,head_dim=k.shape# 检查是否需要扩展缓存ifself.current_len+seq_len>self.max_seq_len:# 扩展缓存new_max_len=self.current_len+seq_len new_k_cache=torch.empty((new_max_len,num_heads,head_dim),dtype=torch.float16,device="cuda")new_v_cache=torch.empty((new_max_len,num_heads,head_dim),dtype=torch.float16,device="cuda")# 复制现有数据new_k_cache[:self.current_len]=self.k_cache[:self.current_len]new_v_cache[:self.current_len]=self.v_cache[:self.current_len]# 更新缓存self.k_cache=new_k_cache self.v_cache=new_v_cache self.max_seq_len=new_max_len# 更新缓存self.k_cache[self.current_len:self.current_len+seq_len]=k[0]self.v_cache[self.current_len:self.current_len+seq_len]=v[0]self.current_len+=seq_lenreturnself.k_cache[:self.current_len],self.v_cache[:self.current_len]

这段代码展示了ChatGPT时代KVCache的核心实现,包括:

  1. 预分配连续显存
  2. 动态扩展机制
  3. 高效更新策略
3.1.3 GPT-5时代(2025-2026):分布式MoE与PagedAttention

GPT-5时代,OpenAI引入了分布式MoE架构,这是推理系统的一次重大变革:

  • 混合专家模型:将模型分为多个专家,每个请求只调用部分专家
  • PagedAttention:借鉴vLLM的技术,解决显存碎片化问题
  • 分布式调度:复杂的分布式调度算法,优化专家利用率
  • 通信优化:使用NCCL和RDMA等技术优化分布式通信

3.2 DeepSeek推理系统演进

3.2.1 DeepSeek-R1时代(2023-2024):高效KVCache管理

DeepSeek-R1是DeepSeek的第一代推理系统,其核心优势在于高效的KVCache管理:

  • 分层KVCache:根据不同请求的特点,使用不同的缓存策略
  • 自适应缓存大小:根据请求量动态调整缓存大小
  • 缓存压缩:使用量化和稀疏化技术压缩KVCache
  • 高效批处理:优化的动态批处理算法
3.2.2 DeepSeek-V2时代(2025-2026):混合专家模型与PagedAttention

DeepSeek-V2是DeepSeek的第二代推理系统,引入了多项关键技术:

  • 混合专家模型:与OpenAI类似,但更注重专家利用率
  • PagedAttention:自主研发的PagedAttention技术,与vLLM兼容
  • 智能调度:基于机器学习的智能调度算法
  • 硬件优化:与芯片厂商深度合作,优化硬件利用率

核心代码示例(PagedAttention实现):

classPagedKVCache:def__init__(self,block_size,num_blocks,num_heads,head_dim):self.block_size=block_size self.num_blocks=num_blocks self.num_heads=num_heads self.head_dim=head_dim# 创建块数组self.k_blocks=torch.empty((num_blocks,block_size,num_heads,head_dim),dtype=torch.float16,device="cuda")self.v_blocks=torch.empty((num_blocks,block_size,num_heads,head_dim),dtype=torch.float16,device="cuda")# 块状态:0=空闲,1=占用self.block_states=torch.zeros(num_blocks,dtype=torch.int,device="cuda")# 块映射:请求ID -> 块索引列表self.block_mapping={}defallocate_blocks(self,request_id,num_blocks):"""为请求分配块"""# 查找空闲块free_blocks=torch.nonzero(self.block_states==0).squeeze(1)iflen(free_blocks)<num_blocks:raiseValueError(f"Not enough free blocks: requested{num_blocks}, available{len(free_blocks)}")# 分配块allocated_blocks=free_blocks[:num_blocks]self.block_states[allocated_blocks]=1self.block_mapping[request_id]=allocated_blocks.tolist()returnallocated_blocksdeffree_blocks(self,request_id):"""释放请求的块"""ifrequest_idinself.block_mapping:blocks=self.block_mapping[request_id]self.block_states[blocks]=0delself.block_mapping[request_id]defupdate_cache(self,request_id,k,v):"""更新缓存"""batch_size,num_heads,seq_len,head_dim=k.shape# 计算需要的块数num_blocks_needed=(seq_len+self.block_size-1)//self.block_size# 分配块ifrequest_idnotinself.block_mapping:self.allocate_blocks(request_id,num_blocks_needed)# 获取分配的块blocks=self.block_mapping[request_id]# 更新块内容foriinrange(num_blocks_needed):start=i*self.block_size end=min((i+1)*self.block_size,seq_len)ifstart<end:block_idx=blocks[i]self.k_blocks[block_idx,:end-start]=k[0,:,start:end]self.v_blocks[block_idx,:end-start]=v[0,:,start:end]returnblocks

这段代码展示了DeepSeek-V2中PagedKVCache的核心实现,与vLLM的实现有异曲同工之妙,包括:

  1. 块管理(分配、释放)
  2. 块映射(请求ID到块索引)
  3. 高效缓存更新

4. 与主流方案深度对比

4.1 推理系统核心指标对比

指标OpenAI GPT-5DeepSeek-V2vLLMTensorRT-LLM
最大上下文长度1M+1M+1M+65k
支持模型规模10T+7T+10T+7T+
吞吐量(1k请求)1000 tokens/s1200 tokens/s900 tokens/s700 tokens/s
平均延迟(1k上下文)50ms40ms60ms70ms
显存利用率90%95%92%85%
分布式支持优秀优秀良好有限
MoE支持原生原生良好有限

4.2 技术路线优缺点分析

系统优点缺点
OpenAI扩展性强、通用性好成本高、不透明
DeepSeek性能优、成本低生态相对较弱
vLLM开源透明、社区活跃企业级支持有限
TensorRT-LLM硬件优化好灵活性差

5. 实际工程意义、潜在风险与局限性分析

5.1 实际工程意义

  1. 架构设计参考:推理系统的演进史为设计新一代系统提供了宝贵的参考,尤其是在处理大规模模型和高并发请求时。

  2. 技术选型指导:了解不同技术路线的优缺点,可以帮助企业根据自身需求选择合适的推理方案。

  3. 性能优化方向:从历史演进中可以看出,KVCache管理、批处理策略和分布式通信是推理性能优化的核心方向。

  4. 成本优化策略:DeepSeek的经验表明,高效的KVCache管理和智能调度可以显著降低推理成本。

5.2 潜在风险与局限性

  1. 技术依赖风险:过度依赖单一技术路线可能导致系统缺乏灵活性,无法适应未来的技术变化。

  2. 扩展性瓶颈:随着模型规模的不断增长,分布式推理的通信开销可能成为新的瓶颈。

  3. 硬件依赖:当前推理系统高度依赖NVIDIA GPU,硬件多样化可能带来新的挑战。

  4. 安全性风险:复杂的分布式系统可能带来更多的安全漏洞和攻击面。

6. 未来趋势展望与个人前瞻性预测

6.1 推理系统的未来发展趋势

  1. 硬件-软件协同优化:芯片厂商与软件框架深度合作,开发专门针对大模型推理优化的硬件架构。

  2. 自适应推理:根据请求的特点,动态调整模型大小、精度和批处理策略。

  3. 边缘推理:将部分推理任务下沉到边缘设备,降低延迟和带宽成本。

  4. 推理即服务:云厂商提供更成熟的推理即服务平台,支持按需付费和自动扩展。

  5. 绿色推理:优化推理系统的能源效率,降低碳排放。

6.2 2027年推理系统预测

  1. 模型规模:主流模型将达到20T以上参数,全部采用MoE架构。

  2. 上下文长度:10M+上下文长度将成为标配,支持完整的书籍和代码库推理。

  3. 推理速度:单GPU推理速度将达到10k tokens/s以上,延迟降低到10ms以内。

  4. 成本:推理成本将降低90%以上,主要通过更高效的硬件和软件优化实现。

  5. 架构:分布式推理将成为标准,支持跨区域、跨云的推理服务。

7. 历史教训与未来启示

7.1 核心技术教训

  1. 显存管理是关键:从早期的简单分配到如今的PagedAttention,显存管理一直是推理系统的核心挑战。

  2. 批处理策略决定吞吐量:从静态批处理到动态批处理,再到Continuous Batching,批处理策略的优化带来了吞吐量的数量级提升。

  3. 分布式通信不可忽视:随着模型规模的增长,分布式通信开销成为新的瓶颈,需要专门的优化。

  4. 灵活性与性能需平衡:过于追求性能可能导致系统缺乏灵活性,无法适应不同的应用场景。

7.2 对vLLM的启示

  1. 坚持开源透明:vLLM的开源模式使其能够快速吸收社区的创新和反馈,保持技术领先。

  2. 注重生态建设:与其他框架和工具的兼容性对于推广至关重要。

  3. 持续优化核心技术:PagedAttention和Continuous Batching是vLLM的核心竞争力,需要持续优化。

  4. 拥抱硬件多样性:除了NVIDIA GPU,还应支持AMD、Intel等其他硬件平台。

8. vLLM如何应用历史经验

vLLM作为当前最热门的推理框架之一,充分吸收了OpenAI和DeepSeek的经验教训:

  1. PagedAttention技术:借鉴了操作系统虚拟内存管理思想,解决了显存碎片化问题。

  2. Continuous Batching:动态调整批处理大小,提高GPU利用率。

  3. 分布式支持:支持张量并行、流水线并行和MoE并行,适应不同规模的模型。

  4. 高效KVCache管理:优化的KVCache管理机制,支持1M+上下文长度。

  5. 开源透明:完全开源,社区活跃,能够快速迭代和改进。

参考链接

  • OpenAI GPT-5 技术报告
  • DeepSeek-V2 技术白皮书
  • vLLM GitHub 仓库
  • PagedAttention: Efficient Memory Management for Long Context LLM Inference
  • NVIDIA NCCL 文档

附录(Appendix):

推理系统演进时间线

OpenAI2020GPT-3 API发布,采用静态批处理2022ChatGPT发布,引入动态批处理和KVCache优化2023GPT-4发布,支持多模态和更长上下文2025GPT-5发布,采用分布式MoE架构DeepSeek2023DeepSeek-R1发布,高效KVCache管理2024DeepSeek-R2发布,支持动态批处理2025DeepSeek-V2发布,采用混合专家模型开源社区2023vLLM发布,引入PagedAttention2024TensorRT-LLM优化,提升硬件利用率2025vLLM 支持分布式MoE推理系统演进时间线

环境配置

  • Python 3.10+
  • PyTorch 2.2+
  • vLLM 0.5+
  • CUDA 12.0+
  • NVIDIA GPU(A100/H100推荐)

关键词:vLLM, 推理系统, 演进史, OpenAI, DeepSeek, PagedAttention, 混合专家模型, 分布式推理, 显存管理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179342.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么所有主流LLM都使用SwiGLU?

本文的目标是解释为什么现代LLM架构在前馈部分使用 SwiGLU作为激活函数并且已经放弃了 ReLU。 神经网络本质上是一系列矩阵乘法&#xff0c;如果我们堆叠线性层而不使用任何激活函数&#xff1a; 无论你堆叠多少层&#xff0c;它仍然只是一个线性变换&#xff0c;网络只能学…

模拟南宁理工学院官网页面

真实南宁理工学院官网页面开始模拟代码&#xff1a;南宁理工学院校徽&#xff1a;校门&#xff1a;成品&#xff1a;

2026年长沙婚纱礼服推荐租赁排名:年初备婚请看 - charlieruizvin

2026年长沙婚纱礼服推荐租赁排名:年初备婚请看伴随95后、00后逐步成为婚恋消费市场的核心群体,婚纱礼服租赁行业的需求偏好正发生结构性转变,摒弃同质化款式,崇尚“正版高定+个性化服务”已成为主流趋势。 据行业权…

兰亭妙微洞察:B 端与 C 端界面设计核心差异,别再用 C 端思维做 B 端

在界面设计领域&#xff0c;B端与C端产品的核心目标、用户群体、使用场景截然不同&#xff0c;若混淆二者设计逻辑&#xff0c;极易导致产品实用性大打折扣。B端产品聚焦企业级需求&#xff0c;以“效率、精准、安全、可拓展”为核心诉求&#xff0c;服务于特定岗位的专业用户&…

兰亭妙微:以交互设计与UI设计赋能文旅小程序,重塑用户体验界面设计优化新标杆

在数字化浪潮席卷文旅行业的当下&#xff0c;小程序已成为品牌触达用户、转化业务的核心载体。新东方文旅作为教育行业头部企业跨界文旅领域的先锋力量&#xff0c;凭借独特的教育资源优势&#xff0c;致力于打造高品质、有文化内涵的文旅产品。随着战略升级&#xff0c;其目标…

计算机毕设怎么写?从选题到答辩的超详细通关攻略

&#x1f4ab; 关于文星毕设 深耕计算机毕设领域5年&#xff0c;全网累计帮助10000学生顺利毕业&#xff01;CSDN认证全栈技术博主、掘金优质创作者&#xff0c;阿里云开发者社区认证专家。 在校期间曾协助导师完成3届毕业生毕设课题审核、论文格式规范指导、项目代码校验工作&…

Linux软件安装 —— JDK安装

文章目录一、节点说明二、下载安装包三、检查/删除现有JDK四、安装一、节点说明 IP主机名192.168.10.102node02192.168.10.103node03192.168.10.104node04二、下载安装包 官网地址&#xff1a;Java Archive Downloads - Java SE 8u211 and later | Oracle 中国 本文安装版本…

HTML标签的使用 - 标题和段落

标题和段落 特点h1 ~ h6一共6级文字自动加粗 + 独占一行h1最好每个页面使用一次,一般用于文章标题或logo Logo使用h1标签的例子: 京东首页除了新闻类场景标题可做分级,其他场景也可使用,例如:小米商城首页的商品…

YOLO26 接入实时视频 - GPU 加速2

经过优化后&#xff0c;稳定在60ms&#xff0c;不卡顿import cv2 from ultralytics import solutions import torch # ✅ 必须在文件顶部 新增导入torch&#xff01;&#xff01;&#xff01; import gc # ✅ 必须在文件顶部 新增导入gc&#xff01;&#xff01;&#xff01…

【Linux】带上时区

cat > setup_vnc.sh << SCRIPT #!/bin/bash# 设置时区为香港 ln -sf /usr/share/zoneinfo/Asia/Hong_Kong /etc/localtime echo "Asia/Hong_Kong" > /etc/timezone echo "时区已设置为 Asia/Hong_Kong"# 切换到库文件目录 cd /usr/lib/x86_64-…

视觉语言导航(VLN)入门基础! - MKT

视觉语言导航(VLN)入门基础!

数论1:整除、同余、质数筛

数论1:整除、同余、质数筛1.整除关系是指,对于两个整数p、q, 有q%p=0, 或存在整数k使得q = k*p, 记作p|q。 整除关系有如下性质:𝑎∣𝑏 ⟺ −𝑎∣𝑏 ⟺ 𝑎∣−𝑏 ⟺ |𝑎|∣|𝑏| 𝑎∣𝑏 ∧…

MySQL Buffer Pool深度解析:当缓存页不足时如何基于LRU算法进行淘汰 - 详解

MySQL Buffer Pool深度解析:当缓存页不足时如何基于LRU算法进行淘汰 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fami…

内存管理-MMU

MMU(Memory Management Unit,内存管理单元) 是 CPU 中负责虚拟内存与物理内存管理的专用硬件模块,位于 CPU 与主存之间。 MMU 的一个重要功能,是让你能将任务作为独立程序管理 —— 这些程序会运行在各自专属的虚…

1.18假期记录

今天继续教资科目二到学习,以及了解寒假生活指导中的智能体、大模型的知识准备深入研究

区间dp

一、核心思想与适用题型 核心思想 区间DP的核心是将问题分解为子区间求解,通过解决子区间的最优解来构建整个区间的最优解。其基本思路是:定义状态表示区间[i, j]的属性通过枚举分割点将大区间划分为两个或多个子区间…

STM32-S57-烟雾浓度+温度+人体防盗报警+水泵+风扇+TFT彩屏+阈值+声光报警+(无线方式选择)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32-S57-烟雾浓度温度人体防盗报警水泵风扇TFT彩屏阈值声光报警(无线方式选择)(设计源文件万字报告讲解)&#xff08;支持资料、图片参考_相关定制&#xff09;_文章底部可以扫码STM32-S57N无无线-无APP板: STM32-S57B蓝牙无线-APP版: STM32-S57W-WIFI无线-APP版: STM32-S57C…

综述《导航定位与授时》封面丨飞行器视觉导航新时代——从地形匹配到空间智能 - MKT

综述《导航定位与授时》封面丨飞行器视觉导航新时代——从地形匹配到空间智能 https://mp.weixin.qq.com/s/TH24qu1fDlMkRSr4e8z7zw《导航定位与授时》2025年第3期封面文章由北京自动化控制设备研究所尚克军研究员等完…

STM32-S184-车位感应+停车引导+闸道控制+车道防夹+计时计费+结算+OLED屏+声光报警+按键+(无线方式选择)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫

STM32-S184-车位感应停车引导闸道控制车道防夹计时计费结算OLED屏声光报警按键(无线方式选择)STM32-S184N无无线-无APP板(硬件操作详细): STM32-S184B蓝牙无线-APP版: STM32-S184W-WIFI无线-APP版: STM32-S184CAN-视频监控WIFI无线-APP版: STM32-S184I-云平台-APP版: 产品功能描…

AI Agent在智能新闻事件检测中的应用

AI Agent在智能新闻事件检测中的应用 关键词:AI Agent、智能新闻事件检测、自然语言处理、机器学习、信息抽取 摘要:本文深入探讨了AI Agent在智能新闻事件检测中的应用。随着新闻信息的爆炸式增长,传统的新闻事件检测方法面临诸多挑战,而AI Agent凭借其强大的自主学习、推…