单机多卡TP(Ray)部署架构

news/2026/1/24 11:32:05/文章来源:https://www.cnblogs.com/aibi1/p/19525664

目录
    • 1️⃣ 单机多实例 vs Ray 架构对比
    • 2️⃣ Ray 在部署架构中的作用
    • 3️⃣ 架构示意(文本版)
    • 4️⃣ 核心差异总结
  • 用一个query 说明白Ray在里面的工作
    • 1️⃣ 场景假设
    • 2️⃣ 请求处理流程
    • 3️⃣ 核心细节说明

明白,我们来详细梳理一下 Ray 架构下的 LLM 部署与单机多实例部署的区别,尤其是 Ray 在其中的作用。


1️⃣ 单机多实例 vs Ray 架构对比

维度 单机多实例部署 Ray 架构部署
GPU 绑定 每个模型实例固定绑定 2 张 GPU GPU 统一管理,Ray 可以动态调度请求到任意可用 GPU
服务端口 每个实例独立端口(如 8000/8001/8002/8003) Ray Actor 内部管理实例,无需人为启动多个端口,统一入口即可
KV Cache 每个实例独立管理,不能共享 每个 Actor 管理自己的 KV Cache,Ray 负责 Actor 调度与路由,逻辑上可以统一管理
请求分发 由业务或网关手动路由到端口 Ray Actor + Serving 层负责动态调度请求,按硬件可用性和负载自动分配
资源利用率 固定分配,可能部分 GPU 空闲 Ray 可以按请求量动态调度,实现 GPU 弹性利用,减少资源浪费
异构硬件 很难扩展,需要人工适配 Ray 可以管理异构节点(NVIDIA / 昇腾 / 其他 GPU),Service 层逻辑统一调用 Actor,底层由硬件适配层处理
扩展性 扩容复杂,需要手动启动更多实例 扩容简单,增加节点或 GPU 后 Ray Actor 自动纳入调度池

2️⃣ Ray 在部署架构中的作用

可以把 Ray 想象成 “异构资源管理和任务调度中枢”

  1. Actor 管理

    • 每个 LLM 模型实例作为一个 Actor 运行
    • Actor 可以绑定单张或多张 GPU(TP/PP 切片也可以在 Actor 内部)
  2. 请求路由

    • 上层请求发到 Ray Serve 或 Ray Actor Pool
    • Ray 根据硬件资源、负载、优先级,把请求路由到合适的 Actor
  3. 动态资源调度

    • 异构 GPU / NPU 节点池
    • Ray 管理 idle / busy 状态
    • 自动选择最优 Actor 执行请求,提高 GPU 利用率
  4. 异构集群支持

    • NVIDIA + Ascend + 其他国产 GPU 节点都可以加入集群
    • Actor 内部通过硬件适配层调用各自 API
    • 上层业务无感知异构差异
  5. 逻辑统一 KV Cache(可选)

    • Actor 内维护本地 KV Cache
    • Service 层可维护 逻辑 KV Cache 映射表,Ray 自动分配 batch 到 Actor,实现逻辑统一

3️⃣ 架构示意(文本版)

=================== 异构 GPU / NPU 集群 ===================┌───────────────────────────┐│       API / 网关层         ││ HTTP/gRPC/OpenAI-compatible │└───────────┬───────────────┘│┌───────▼───────────┐│    Ray Serve /    ││    Actor Pool     ││ - 请求路由        ││ - 负载均衡        ││ - 异构调度        │└───────┬───────────┘│┌────────────────┼─────────────────┐│                │                 │┌─────▼─────┐    ┌─────▼─────┐    ┌─────▼─────┐│ Actor_1    │    │ Actor_2    │    │ Actor_3    ││ GPU0+GPU1  │    │ GPU2+GPU3  │    │ GPU4+GPU5  ││ KV Cache   │    │ KV Cache   │    │ KV Cache   │└───────────┘    └───────────┘    └───────────┘Actor_N 可在异构节点上,Ray 自动管理请求分发和调度

4️⃣ 核心差异总结

  1. 单机多实例

    • GPU 固定分配
    • 多端口独立服务
    • KV Cache 互不共享
    • 手动调度请求
  2. Ray 架构

    • GPU 动态分配 Actor
    • 上层业务无感知硬件
    • Ray Serve 自动调度请求
    • 异构集群可扩展
    • KV Cache 可逻辑统一

简单一句话:Ray 把“手动划分 GPU + 多实例管理 + 请求路由”统一成动态调度和 Actor 管理,使异构集群部署更灵活可扩展。

用一个query 说明白Ray在里面的工作

完全对,你理解的逻辑是正确的,但我帮你把流程梳理成完整的 请求生命周期 + Ray 和 vLLM 的协作,保证面试或设计说明能一眼看懂:


1️⃣ 场景假设

  • 模型:Qwen 14B
  • 每个请求需要 2 张 GPUTensor Parallel (TP)
  • 部署架构:Ray + vLLM Service
  • GPU:Ray 管理的 GPU 池(NVIDIA 或异构 GPU 节点)

2️⃣ 请求处理流程

[用户请求]│▼
┌───────────────┐
│  API / 网关层  │
└───────────────┘│ 请求到来▼
┌─────────────────────────────┐
│      Ray Serve / Actor Pool  │
│ - 查询可用 GPU 资源          │
│ - 找到 2 张 GPU (GPU0+GPU1) │
│ - 创建/选择对应 Actor       │
└─────────────────────────────┘│ 将 GPU 信息传给 Actor▼
┌─────────────────────────────┐
│         vLLM Service         │
│ - TP 配置 GPU0+GPU1         │
│ - KV Cache / Batch 管理      │
│ - generate() 逐 token 输出   │
└─────────────────────────────┘│▼
[结果返回给 API / 用户]

3️⃣ 核心细节说明

  1. Ray 的职责

    • 动态调度请求 → 找到满足 TP GPU 数量的可用 GPU
    • 选择 Actor(如果已有实例可以复用,或者新建 Actor)
    • GPU 列表/Actor ID 信息传给 vLLM Service
  2. vLLM 的职责

    • 接收 Ray 提供的 GPU 信息
    • 配置 TP 切片:每张 GPU 加载模型一部分权重
    • 管理 KV Cache 和 batch
    • 执行生成循环(token-by-token)
  3. TP 配置逻辑

    • vLLM 内部根据 GPU 列表进行权重拆分
    • 每张 GPU 只计算该 TP 切片
    • 层间通信通过 NCCL / HCCL 等底层库完成
  4. KV Cache

    • 每个 Actor 有自己的本地 KV Cache
    • 上层 Service 逻辑上可以统一管理 batch / token routing

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1209518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

亲测好用!10款AI论文写作软件测评,本科生毕业论文必备

亲测好用!10款AI论文写作软件测评,本科生毕业论文必备 2026年AI论文写作软件测评:为何值得一看? 随着人工智能技术的不断发展,越来越多的本科生开始依赖AI工具辅助论文写作。然而,面对市场上琳琅满目的AI论…

Pelco KBD300A 模拟器:13.项目pytest自动化测试方案规划

Pelco KBD300A 模拟器项目pytest自动化测试方案规划 本规划基于最新上传的代码版本(已优化),针对项目的核心功能、逻辑、架构和模块实现情况,制定全面的测试方案。测试方案旨在验证代码的正确性、鲁棒性、性能和覆盖率&#xff0…

收藏!技术寒冬破局指南:大模型应用开发成程序员小白新出路

不得不承认,近段时间技术圈的整体环境确实承压明显。随着互联网行业彻底告别增量扩张,全面进入存量竞争的深水区,“降本增效”成为所有企业的核心经营逻辑,这一趋势最直接的体现就是——传统软件开发岗位的HC持续收紧,…

收藏级!大语言模型核心原理精讲(含ChatGPT+Transformer+实战路线)

本文专为程序员与AI初学者打造,用通俗易懂的语言拆解大语言模型(LLM)核心逻辑,重点剖析ChatGPT的底层机制,覆盖生成式特性、预训练思想、Transformer架构三大核心板块。同时详解AI基础概念、SFT/PPO/RLHF等训练方法&am…

怎么查看电脑型号和配置?这款免费神器,一键看清所有硬件底细!

前言 相信很多朋友都遇到过这样的情况: 电脑用了好几年,想升级内存却不知道主板支持多大容量; 想买二手电脑怕被骗,想核实卖家说的配置是否属实; 或者电脑出了问题,客服问你具体型号一脸懵逼。 其实查…

2026年1月北京审计公司推荐排行榜单:聚焦科技企业审计服务的深度对比与评测

一、引言 在当今复杂多变的商业环境中,审计作为企业合规经营、风险控制与价值提升的关键环节,其重要性日益凸显。对于身处北京的众多创业者、企业管理者及财务决策者而言,无论是初创科技公司寻求融资,还是成熟企业…

2026年1月北京审计公司推荐排行榜单:聚焦科技企业审计服务的深度对比与客观评测

一、引言 在当今复杂的经济环境中,审计作为企业合规经营、风险控制与价值提升的关键环节,其重要性日益凸显。对于身处北京的创业者、企业管理者及财务负责人而言,选择一家专业、可靠且契合自身需求的审计公司,是保…

MySQL——存储2(造数据)和 if 结构

(接上一篇) 三、存储造数据 循环:while ..条件... do ...执行语句..end while (讲这个循环) loop ...... end loop repeat ....until .....end repeat 声明变量: declare 变量名 字符类型 defaul…

『NAS』在绿联部署一个像素风宝可梦同人游戏-pokerogue

点赞 关注 收藏 学会了 整理了一个NAS小专栏,有兴趣的工友可以关注一下 👉 《NAS邪修》 pokerogue 是一款可通过 Docker 轻松部署(适合 NAS)的宝可梦同人网页游戏,核心是经典宝可梦回合制战斗玩法。玩家需在随机线路…

『n8n』数据过滤

点赞 关注 收藏 学会了 整理了一个n8n小专栏,有兴趣的工友可以关注一下 👉 《n8n修炼手册》 在 n8n 的自动化工作流中,数据处理是核心环节之一。 — 无论是 API 返回的冗余数据、格式不统一的原始数据,还是需要跨数据集关联的…

高精度尘埃粒子计数器优质品牌有哪些?杭州丰控了解一下

问题1:锂电车间对尘埃粒子计数器的核心要求是什么?普通计数器为何难以满足? 锂电车间的生产环境直接影响电池的安全性与一致性,其对尘埃粒子计数器的要求远超普通工业场景:一是洁净度等级严苛,需满足ISO 5级(百…

2026年宁夏银川核心商圈广告资源推荐,靠谱的高清广告屏排名揭晓!

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为品牌客户选型核心商圈广告资源提供客观依据,助力精准匹配适配的户外媒体伙伴。 TOP1 推荐:宁夏昊远联动文化传媒有限公司 推荐指数:★★★★★…

2026年重庆专业建筑结构加固施工单位推荐,为您的建筑安全护航

在城市更新与存量建筑改造需求持续爆发的当下,建筑结构安全升级已成为基建领域的核心课题,而选择专业的建筑结构加固施工单位,直接关乎构筑物的安全寿命与工程价值。面对市场上资质混杂、技术参差的行业现状,如何挑…

2026年纯手工砖生产厂排名,选哪家好给你做推荐

在消费升级与审美觉醒的浪潮下,手工质感瓷砖已成为商业空间与住宅的空间灵魂载体,其不可复制的肌理与温度,正重新定义墙面装饰的艺术边界。面对市场上良莠不齐的手工砖加工厂,如何找到既懂艺术又重落地的靠谱伙伴?…

盘点临沂济宁等地美容美妆培训学校推荐,别错过好校

随着美妆行业的快速发展,越来越多热爱美妆的人开始关注专业培训,但市场上培训机构鱼龙混杂,很多人都在纠结化妆美妆培训学校哪家比较靠谱美容美妆培训学校推荐几家化妆师美妆培训学校哪个好这类问题。其实,判断一家…

2026年广州精品意大利进口岩板品牌,三星岩(TRE STELLE)值得关注

在当代人居与商业空间的美学升级浪潮中,高品质岩板已成为连接设计构想与空间现实的核心载体。面对市场上品质参差、交付不稳的行业痛点,如何选择兼具纯正工艺与可靠服务的意大利进口岩板品牌?以下结合品牌实力、工艺…

实用指南:Arbess从基础到高阶(6) - 使用Arbess+GitLab实现Python项目自动化构建并主机部署

实用指南:Arbess从基础到高阶(6) - 使用Arbess+GitLab实现Python项目自动化构建并主机部署2026-01-24 11:25 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !importa…

实用指南:LLM - Agent Skills 智能体新范式

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

新书《鸿蒙HarmonyOS 6应用开发:从零基础到App上线》出版啦

​基于最新鸿蒙系统的技术书籍《鸿蒙HarmonyOS 6应用开发:从零基础到App上线》上市啦,要知道 HarmonyOS 6 在一个多月前的10月22日才正式发布,因此这本鸿蒙教程可谓贴近最新的 HarmonyOS 6 系统。当前 HarmonyOS 6 的…

高中物理梳理(不定期更新)

傻白虎也要学物理! 直线运动 \(v=v_0+at\) \(x=v_0t+\dfrac 12at^2\) \(v^2-v_0^2=2ax\) \(t=\sqrt{\dfrac{2h}g}\) 力 胡克定律:\(F=kx\) \(f=\mu F_N\) 牛顿第二定律:\(F=ma\) 圆周运动 \(F_n=m\omega^2r=mv\omeg…