重磅!Volcano发布AgentCube,构建AI Agent时代的云原生基础设施

本文分享自华为云社区《重磅!Volcano发布AgentCube,构建AI Agent时代的云原生基础设施》

云原生批量计算引擎Volcano 社区全新子项目AgentCube现已正式发布。AgentCube的诞生基于 Volcano 在大规模高性能计算调度领域多年的生产实践积累,它将这种高并发、高吞吐的调度能力延伸至 AI 领域,构建了一套面向智能体(Agent)工作负载的 Serverless 编排层,旨在为高并发、长会话、对延迟极度敏感的智能体(Agent)工作负载提供Serverless 化的编排与极速调度能力

从 Kubernetes 到 Agent Native

随着大语言模型(LLM)技术的成熟,技术架构正从“无状态推理”向“自主智能体(Autonomous Agents)”演进。

在这一进程中,Kubernetes 凭借其成熟的生态和对异构算力的标准化管理,已成为构建 AI 基础设施的事实标准。虽然原生 Kubernetes 提供了通用的容器编排原语以及多样化的工作负载抽象,但在面对 AI Agent 这种“高并发、短时效、强状态依赖”的新型负载时,仍存在着显著的粒度错配机制缺位

  1. 启动延迟与交互体验的矛盾
    Agent 的交互通常要求毫秒级响应。然而,原生的 K8s Pod 启动流程(调度、IP 分配、镜像拉取、容器启动)往往在秒级甚至分钟级。对于需要频繁拉起 Code Interpreter(代码解释器)或临时子 Agent 的场景,这种冷启动延迟是用户无法接受的。
  2. 资源利用率的挑战:Agent 是典型的IO 密集型负载。在一次会话中,90% 的时间 Agent 可能都在等待 LLM 生成 Token 或等待外部工具响应。如果在 K8s 上为每个 Agent 独占一个 Pod,会导致大量的 CPU/Memory 资源在等待期间被闲置浪费,却无法被其他任务复用。
  3. 会话状态管理的缺失:K8s 对“无状态(Stateless)”工作负载天然友好,但 Agent 高度依赖“上下文(Context/Memory)”。在原生 K8s 中,Pod 重启意味着内存数据丢失,开发者被迫在应用层通过外部存储重建上下文,这带来了巨大的复杂性和网络开销。
  4. 安全隔离难题:高级 Agent(如 Data Analyst)需要运行由 LLM 生成的不可信代码。但普通的 runC 容器如果运行 rm -rf / 具有极高风险。企业级 Agent 平台迫切需要一种既能快速启动,又能提供强隔离(如 MicroVM)的沙箱环境。

为了在 Kubernetes 坚实的算力底座之上,填补上述机制空白,AgentCube 应运而生。

AgentCube 是什么?

AgentCube是一个构建在 Volcano 之上的高性能 AI Agent 编排层。它通过扩展 Kubernetes API,将Agents和 Tools(Code Interpreters、BrowserUse等)提升为集群的一等公民。

它不仅仅是一个 CRD,更是一套面向 Agent 的 Serverless 操作系统

核心架构与抽象

AgentCube 引入了两个核心的 CRD 来定义 Agent 工作负载:

  1. AgentRuntime:面向长会话、复杂的对话式 Agent。
    • 支持定义会话的生命周期、资源配额以及持久化策略。
  2. CodeInterpreter:面向短任务、高频的代码执行环境。
    • 强调“用完即毁”和极致的安全隔离,天然适配 MicroVM(如 Kuasar, Kata Containers, Firecracker)。

AgentCube后续还将提供BrowserUse、ComputerUse、MobileUse等工作负载抽象支持。

AgentCube 关键技术亮点

为了解决上述痛点,AgentCube 在架构设计上引入了多项创新:

1. 极速启动

为了消除冷启动的挑战,AgentCube 实现了Warm Pool(预热池)机制。系统会预先启动并暂停一组持有基础环境的 MicroVM 沙箱。当 Agent 请求到来时,AgentCube 能够通过"Claim-and-Go"的方式,在毫秒级将预热的沙箱分配给会话,实现近乎零延迟的启动体验。

2. 极速调度

借助 Volcano 的Agent Scheduler,AgentCube显著提升了Agent调度的吞吐和时延。

  • 高吞吐、低时延:针对 Agent 突发流量,采用了乐观并发控制和精简的调度策略,大幅提升调度 TPS。
  • 统一调度支持:Volcano 的 Agent Scheduler 可以与原有的 Batch Scheduler 无缝配合,在协调 Agent 与传统的 Batch 作业潜在调度冲突的同时,确保整体集群的资源利用率和关键业务的 SLA。

3. 原生会话管理

AgentCube 引入了Session ID作为核心路由标识,便于保证业务上下文的连续性。

  • 请求路由:AgentCube Router 能够识别请求中的 x-agentcube-session-id,自动将其路由到对应的活跃沙箱。
  • 自动的沙箱激活:当前会话对应的沙箱处于休眠状态时,AgentCube Router 能够自动激活沙箱。
  • 基于会话的端到端隔离:AgentCube 会自动为每个会话分配独立的沙箱环境,确保计算、内存与文件系统的完全隔离,防止跨租户的数据泄露。

4. Serverless 化的弹性伸缩

AgentCube 能够根据会话的活跃度自动管理沙箱生命周期。闲置的沙箱会被自动回收或休眠,释放物理资源供其他高优先级任务使用,真正实现资源按需分配与极致利用

AgentCube 架构概览

AgentCube 采用了经典的控制面与数据面分离的架构设计,确保了系统的高可用性与扩展性:

  • 数据面 :AgentCube Router承载。它作为流量入口,负责鉴权、限流以及基于 Session ID 的智能路由。对于新会话,它向控制面申请资源;对于活跃会话,它直接将请求转发至对应的Sandbox (MicroVM)
  • 控制面 :核心组件Workload Manager负责沙箱的全生命周期管理。它监控预热池 (Warm Pool) 的水位,自动补充 MicroVM 实例,并根据会话活跃度策略(如 TTL)执行沙箱的回收与垃圾清理。
  • 调度层:集成Volcano Agent Scheduler,通过异步并行调度和乐观锁机制,实现高并发下的毫秒级资源分配。

生态协作:共建标准化的 Agent 基础设施

作为开源中立的基础设施项目,AgentCube 旨在通过标准接口连接上下游生态,协作解决从容器编排到智能体应用落地的“最后一公里”难题。

1. 南向兼容:基于标准接口的运行时适配

AgentCube 坚持开放架构设计,通过深度集成 kubernetes-sigs/agent-sandbox 接口及 OCI 标准,实现对底层异构运行时的统一抽象与无感适配。

  • 运行时解耦:支持通过 RuntimeClass 机制接入 Kuasar、Kata Containers、Firecracker 等安全容器技术,允许用户根据安全与性能需求灵活选择底层隔离方案。
  • 前沿探索:社区正在评估 Wasm (WebAssembly) 技术,计划在未来版本中探索其在极轻量级 Agent 任务中的应用,以提供更多样化的算力供给。

2. 北向集成:服务主流Agent框架

在应用层,AgentCube 致力于成为 Dify、LangChain、CrewAI、LlamaIndex 等Agent框架的标准基础设施底座,相关适配工作正在快速迭代中。

  • 声明式管理:将通过 Operator 模式提供声明式资源接口,帮助上层框架剥离底层的沙箱预热池管理与网络配置等逻辑。
  • 统一底座:目标是实现业务编排与资源调度的解耦,使不同框架开发的应用能复用同一套云原生运维体系,降低基础设施的维护成本与碎片化程度。

灵活接入:兼顾开发与运维体验

AgentCube 设计了分层的接入接口,旨在同时满足上层业务开发者与底层平台工程师的诉求,让基础设施不再成为黑盒。

1. 面向 Agent 开发者:标准 API 接入

为了进一步降低接入门槛,AgentCube 提供了开箱即用的Python SDK。开发者无需深入理解 Kubernetes 的复杂概念,即可像调用本地函数一样申请、执行和释放沙箱。这使得 AgentCube 能够轻松集成到 Dify、LangChain、CrewAI、LlamaIndex 等主流框架中。

示例1:在agent代码中动态拉起一个CodeInterpreter并运行临时代码

# python

from agentcube import CodeInterpreterClient

# Initialize client (uses env vars for configuration)

with CodeInterpreterClient() as client:

# 1. Run a simple shell command

print("User: whoami")

print(client.execute_command("whoami"))

# 2. Execute Python code

code = """

import math

print(f"Pi is approximately {math.pi:.4f}")

"""

output = client.run_code("python", code)

print(f"Result: {output}")

示例2:通过kubectl agentcube命令行工具创建一个Agent

# 1. Package an existing agent:

kubectl agentcube pack -f examples/hello-agent --agent-name "my-agent"

# 2. Build the container image:

kubectl agentcube build -f examples/hello-agent

# 3. Publish to AgentCube:

kubectl agentcube publish \

-f examples/hello-agent \

--image-url "docker.io/username/my-agent" \

# 4. Invoke your agent:

kubectl agentcube invoke -f examples/hello-agent --payload '{"prompt": "Hello World!"}'

# 5. Check status:

kubectl agentcube status -f examples/hello-agent

2. 面向平台工程师:声明式 CRD 管理

AgentCube 延续了云原生的声明式管理模式。运维团队可以通过 CRD (AgentRuntime,CodeInterpreter) 精细化定义资源池策略,直接复用现有的 Kubernetes 运维体系与工具链进行统一管理。

示例:定义一个CodeInterpreter,始终保持 10 个热备沙箱

# YAML

apiVersion: runtime.agentcube.volcano.sh/v1alpha1

kind: CodeInterpreter

metadata:

name: simple-codeinterpreter

namespace: default

spec:

template:

image: ghcr.io/volcano-sh/picod:latest

sessionTimeout: "15m"

maxSessionDuration: "8h"

warmPoolSize: 10# 预热水位

想亲自体验?完整的安装部署文档与 Demo 示例,请访问 GitHub 仓库:https://github.com/volcano-sh/agentcube

加入社区

AgentCube 是 Volcano 社区的一部分,遵循开源开放的原则。我们诚挚邀请对AI Infra、Kubernetes 调度、Serverless 架构感兴趣的开发者加入我们!

让我们一起,为 AI Agent 时代构建更强大的基础设施!


Volcano (https://volcano.sh)是业界首个云原生批量计算引擎,也是 CNCF 首个和唯一的批量计算项目。项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到快速应用,已完成对 Spark、Flink、Ray、 Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene 等众多主流计算框架的支持,并构建起完善的上下游生态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1158884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7个关键问题解密YashanDB数据库的技术架构

在现代数据库技术不断发展与演进的背景下,数据的高并发访问、数据一致性与完整性问题逐渐成为企业用户面临的共同挑战。随着数据量的激增,以及对实时分析、事务处理、云计算等技术需求的增加,数据库架构的灵活性与高可用性显得愈发重要。本文…

机器人技术十年演进

下面给你一条从工程可行性、系统能力与产业落地出发的 「机器人技术十年演进路线(2025–2035)」。 我会刻意避开“像人类”“通用智能”的空泛叙事,聚焦哪些技术真的会发生跃迁、为什么、以及工程上意味着什么。一、核心判断(一句…

架构师觉醒:从重构到引领-第2集:画布上的第一笔:架构图重构

故事大纲(30集微故事版) 主角:陆维,35岁,某中型互联网公司技术专家,因一次重大生产事故被临时推上架构师岗位。他拥有扎实的技术功底但缺乏架构视野,在危机中意外“连接”到一个来自未来的架构思…

GD25Q64EWIGR,支持标准、双通道及四通道SPI的高速64M位串行闪存

型号介绍今天我要向大家介绍的是 GigaDevice 的一款存储器——GD25Q64EWIGR。 它的安全性能如同铜墙铁壁,拥有软件和硬件两种写保护功能,能够有效防止数据被意外删除或修改。它还配备了独特的安全寄存器,如同武士的护身符,能够保护…

Spring Boot MyBatis-Plus处理日期查询代码报错分析与修复

以下spring boot mybatis-plus代码报错: /*** 获取资金信息列表*/public List<CapitalInfoVO> queryList(NotNull CapitalInfoQueryDTO queryDTO) {LambdaQueryWrapper<CapitalInfo > queryWrapper new LambdaQueryWrapper<>();// 构造查询条件queryWrappe…

科技知识图谱:释放创新潜能,构建协同生态

科易网AI技术转移与科技成果转化研究院 在全球化竞争日益激烈的今天&#xff0c;科技创新已不再是单打独斗的智力较量&#xff0c;而是一场需要多方协同、资源整合的复杂系统工程。如何让科技成果从实验室走向市场&#xff0c;如何构建开放协同的创新生态体系&#xff0c;成为…

【深度收藏】大模型RLHF算法全攻略:7种方法优缺点对比与实战选型指南

文章系统介绍7种大模型强化学习算法&#xff1a;经典稳健但资源消耗大的PPO、显存优化的GRPO、轻量高效的DPO、长文本专家GSPO、工业级优化DAPO、防模式崩塌的BAPO以及智能体专用ARPO。每种算法详解核心思想、优势局限及适用场景&#xff0c;为开发者提供从个人实验室到工业级训…

Spring singleton线程安全吗?与单例模式有何不同?

Spring singleton是Spring框架中一个核心且基础的概念&#xff0c;它关乎应用组件的生命周期和资源管理。简单来说&#xff0c;它代表Spring IoC容器默认会为每个Bean定义创建且仅创建一个共享实例。理解其运作机制和适用场景&#xff0c;对于构建高效、稳定的应用至关重要。本…

线程间通信模型有哪些?如何选择与实践应用

线程间通信是多线程编程的基石&#xff0c;它决定了并发程序中各个执行单元如何安全、高效地交换信息和协调任务。理解不同的通信模型&#xff0c;能帮助开发者构建出更稳定、性能更优的软件系统。下面我将结合实践&#xff0c;探讨几个关键方面。 线程间通信有哪些常见模型 最…

4G智能网关在城市水务管网智能监测中的应用

场景痛点&#xff1a;城市供水管网遍布地下&#xff0c;漏损问题隐蔽难寻&#xff0c;造成巨大的水资源浪费和经济损失。传统的人工巡检与分区计量方式效率低下、响应滞后。管网压力、流量、水质等关键参数无法实现广域、实时的监测&#xff0c;一旦发生爆管或水质污染事件&…

企业固定资产管理软件有哪些?全面解析常见产品及对比功能优势

固定资产覆盖设备、办公设施、不动产等多个类别&#xff0c;随着数字化转型深入&#xff0c;固定资产管理软件凭借全生命周期管控、数据实时同步、智能流程优化等优势&#xff0c;成为破解管理难题、提升管控效能的核心工具&#xff0c;为不同规模、不同行业的企业提供标准化、…

大数据分析入门:Hadoop 生态系统与 Python 结合的分布式数据处理实践

在数据量呈指数级增长的数字时代&#xff0c;传统单机数据分析工具已难以应对海量数据的存储与处理需求。Hadoop 生态系统作为大数据领域的开源基石&#xff0c;凭借分布式存储与计算能力&#xff0c;成为处理 PB 级数据的核心解决方案&#xff1b;而 Python 以其简洁易用的语法…

AbMole小讲堂丨ISRIB:整合应激反应的调控分子及其研究应用

ISRIB&#xff08;Integrated Stress Response Inhibitor&#xff0c;AbMole&#xff0c;M9242&#xff09;是一种小分子化合物&#xff0c;能够特异性抑制整合应激反应&#xff08;ISR&#xff09;的激活。ISR是细胞在应激条件下&#xff08;如缺氧、病毒感染等&#xff09;通…

收藏!字节实习生日薪500刷屏:普通人抓住AI风口,从大模型训练师起步就够了

最近打工人的朋友圈&#xff0c;彻底被字节跳动实习生涨薪的消息刷爆了&#xff01; 据1月5日知情人士爆料&#xff0c;此次涨薪覆盖技术、产品、运营等多个核心岗位&#xff0c;且从1月1日起已正式生效。最让人惊呼的是&#xff0c;有网友深挖后发现&#xff0c;产品岗和技术岗…

大模型训练必备技能:从理论到实践,一篇全搞定,建议长期收藏

文章系统介绍大模型训练的必要性、基本流程及学习框架。大模型训练使知识"内化"于模型本身&#xff0c;区别于RAG的外部扩展&#xff0c;具有任务精通度高、响应速度快、系统可靠性强的优势。学习大模型训练对专业人才、学生和企业都至关重要。本教程将从基础到高级&…

强迫风冷散热设计:风道优化设计指南

&#x1f393;作者简介&#xff1a;科技自媒体优质创作者 &#x1f310;个人主页&#xff1a;莱歌数字-CSDN博客 &#x1f48c;公众号&#xff1a;莱歌数字 &#x1f4f1;个人微信&#xff1a;yanshanYH 211、985硕士&#xff0c;职场15年 从事结构设计、热设计、售前、产品设…

大模型智能体必备技能:路由模式详解,从原理到实践一篇搞定,建议收藏

路由模式是智能体系统的动态决策机制&#xff0c;能根据环境状态或用户输入在多路径中仲裁&#xff0c;解决传统线性流程灵活性差的问题。通过"接收输入→评估决策→导向路径"闭环&#xff0c;实现意图精准匹配、上下文自适应和模块化扩展。文章详解4种主流实现方式(…

【必学收藏】提示工程VS RAG VS 微调,大模型应用场景全解析,一篇搞定!

文章全面介绍RAG&#xff08;检索增强生成&#xff09;技术&#xff0c;与提示工程、微调的对比及适用场景。详细阐述RAG系统工作流程&#xff08;文档解析、分块、向量化、存储、检索、重排序等&#xff09;&#xff0c;以及文档分块策略、Embedding模型选择、系统调试、维护评…

【Vivado错误日志】:[IP_Flow19-3478] Validation failed for parameter Coe File(Coe_File).Invalid Coe File...

问题描述&#xff1a; Vivado 在Block Design中调用自定义封装的IP核后Generate Output Product时报错&#xff1a; [IP_Flow19-3478]Validation failed forparameter’CoeFile(Coe_File)with value’…/xxx/xxxxxx/xxxxxxxx.coe’ for IP system_system_top_0_o/bik_mem_gen_1…

【Java毕设全套源码+文档】基于springboot的卷烟营销统计分析系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…