2025具身端侧芯片与云边协同:除了NV Thor,还有哪些芯片在具身机器人上整活儿

在Embodied AI范式全面转向Physical AI的2025年,人形机器人与高度自主移动系统的核心竞争力已不再仅仅局限于关节电机的扭矩或机械结构的灵活性,而在于那颗能够实时处理视觉、触觉、语音并转化为精准动作序列的“端侧大脑”及其背后的异构协同逻辑。随着NVIDIA Jetson Thor的全面商用、国产自研具身专用SoC的异构崛起,以及VLA模型从云端向端侧小脑的频率桥接技术的成熟,具身智能的计算架构正经历一场从通用AI计算向专用物理交互计算的深刻演进。

第一章 2025年具身智能端侧计算平台的代际跨越

1.1 NVIDIA Jetson Thor:Blackwell架构对物理AI的统治力

作为2025年全球具身智能开发者的首选平台,NVIDIA Jetson AGX Thor不仅是算力的简单提升,更是对“物理交互实时性”这一核心命题的硬件级响应。基于Blackwell GPU架构的Thor,将端侧AI计算推向了FP4精度时代。通过引入下一代Transformer引擎,Thor能够动态地在FP4和FP8精度之间进行切换,这使得其在处理LLM模型和VLM模型时的推理效率较上一代Orin提升了7.5倍。

对于机器人开发者而言,Thor最显著的革新在于解决了GPU Oversubscription导致的实时性失效问题。传统的Jetson平台在运行多个并发AI工作流(如同时处理视觉导航、语音交互和精细抓取)时,容易出现由于GPU调度延迟导致的控制回路抖动。Thor通过多实例GPU隔离技术,允许开发者将单个显存物理划分为多个独立实例,为不同优先级的机器人任务分配专有的计算资源,确保关键的控制指令不会被次要的感知任务阻塞。

关键规格维度

NVIDIA Jetson AGX Thor

NVIDIA Jetson AGX Orin 64GB

GPU架构

Blackwell (2,560 CUDA cores, 96 Tensor cores)

Ampere (2,048 CUDA cores, 64 Tensor cores)

计算峰值 (FP4/INT8)

2,070 FP4 TFLOPS

275 INT8 TOPS

核心CPU组

14-core Arm Neoverse-V3AE (2.6 GHz)

12-core Arm Cortex-A78AE (2.2 GHz)

显存容量与带宽

128 GB LPDDR5X (273 GB/s)

64 GB LPDDR5 (204.8 GB/s)

网络吞吐量

4x 25 GbE + 1x 5 GbE

1x 10 GbE

功耗范围 (TDP)

40W - 130W

15W - 60W

1.2 异构加速引擎:超越GPU的感知处理

在具身机器人的实际运行中,GPU主要承担复杂的深度学习推理,而大量的低层感知任务(如双目立体匹配、光流计算、实时图像合成)若全部堆叠在GPU上,会极大拖累整体能效比。Thor集成了第三代可编程视觉加速器(PVA 3.0)和专用的光流加速器(OFA),能够以极低功耗离线处理视觉感知流。实验数据表明,Thor T5000模块可以在30 FPS下同时处理8路960x600分辨率的立体深度图估计,且完全不占用GPU资源,这一性能较Orin提升了10倍。

此外,Thor内置的Holoscan传感器桥接(Holoscan Sensor Bridge)技术,实现了传感器数据经以太网直接传输至GPU显存的近零拷贝链路。这对于需要处理20个以上摄像头输入及激光雷达、IMU融合数据的人形机器人而言,是保证端到端时延低于50ms的技术基石。

第二章 国产自研芯片在具身领域的异构创新与反攻

2.1 华为Ascend系列:多精度与高带宽的平衡

2025年,华为在昇腾产品线上推出了专门针对人形机器人端侧优化的Ascend 950系列。面对具身大模型对内存访问带宽的极端渴求,华为引入了HiZQ 2.0 HBM技术,将内存带宽推升至4 TB/s,这一指标甚至超越了部分数据中心级GPU。在数据格式上,华为通过支持HiF8和HiF4等私有格式,在保证接近FP16精度的同时,实现了FP8甚至FP4级别的计算效率,Ascend 960在FP4下的算力可达4 PFLOPS。

这种架构设计的深层逻辑在于,具身智能的推理过程分为“Prefill”和“Decode”两个阶段。预填充是计算密集型的,需要强大的矢量处理能力;而解码是访存密集型的,对HBM带宽极度敏感。华为通过将计算资源与高带宽内存异构集成,解决了端侧运行10B甚至30B参数规模VLA模型时的“内存墙”问题。

2.2 Horizon征程6P:Nash BPU对Transformer的硬件解构

地平线在2025年大规模量产的Journey 6P芯片,代表了另一种极致优化的思路。不同于通用型GPU,征程6P基于Nash BPU架构,专门针对Transformer结构中的Attention机制进行了硬件硬化。其1000 TOPS以上的算力并非均匀分布,而是倾斜配置给了大模型推理中最常见的矩阵乘法与线性代数运算。

征程6P的竞争优势在于其系统级的高效性。通过深度优化VLM模型与VLA模型的执行流水线,征程6P能够以更低的功耗实现与Thor相当的实时感知帧率。这使得它在电池容量受限、散热空间紧张的便携式或小型化人形机器人市场中表现尤为抢眼。

2.3 瑞芯微(Rockchip)RK3688:中端市场的“质价比”标杆

对于大量的商用服务机器人和教育类具身设备,瑞芯微的RK3688在2025年展现了极强的统治力。采用4-5nm先进工艺的RK3688,配备了8个Cortex-A730高性能核心和4个Cortex-A530能效核心,其RKNN-P3 NPU提供了32 TOPS的算力。

虽然RK3688在绝对算力上无法与Thor抗衡,但其极强的多媒体处理能力(支持16K@30FPS解码和8K@60FPS编码)使其在多摄像头环视监控和实时视觉语义分割任务中极具优势。RK3688与Jetson系列的对比反映了市场的两极分化:高端市场追求物理AI的极致推理,而量产市场则在算力、功耗与成本(SWaP-C)之间寻求最优解。

芯片型号

算力等级 (Typical)

核心优势

目标应用场景

NVIDIA Jetson Thor

2070 FP4 TFLOPS

Blackwell架构, MIG隔离, 极其成熟的Isaac软件栈

高端人形机器人, 通用物理AI研究

华为 Ascend 960

4 FP4 PFLOPS

4TB/s HBM带宽, HiF4私有高精度格式

大模型推理, 工业级具身控制中心

地平线 Journey 6P

1000+ TOPS

Nash BPU针对Transformer硬化, 能效比极高

L3/L4自动驾驶级机器人, 城市NOA机器人

瑞芯微 RK3688

32 TOPS (NPU)

4nm工艺, 强大多媒体I/O, 极致成本控制

商用服务机器人, 轻量化协作臂

第三章 端侧小脑的部署细节:从模型蒸馏到微秒级闭环

在具身智能架构中,“小脑Cerebellum”主要负责高频运动控制、平衡维持和精细触觉反馈。2025年的行业共识是:大脑(Cloud/Edge LLM)负责语义理解与长程规划(5-10Hz),而小脑必须在端侧实现500Hz至1000Hz以上的确定性实时控制。

3.1 强化学习策略的蒸馏与剪枝:D-PPO框架的实践

由于直接运行原始RL大模型会消耗过多的计算资源并产生不可接受的随机延迟,2025年的主流部署方案采用了Distillation-PPO技术。该方案通过一个两阶段流程,将复杂的运动技能下放到端侧芯片。

在第一阶段,开发者在NVIDIA Isaac Sim中使用全知Privileged Information,如地形阻力系数、重心实时坐标,训练一个Teacher Policy。第二阶段,通过知识蒸馏技术,将教师策略的行为模式转移到一个仅依赖端侧传感器(如IMU、关节编码器、深度相机)的Student Policy。

在端侧部署时,这种策略通常被转化为高度优化的ONNX或TensorRT图。针对NPU的异构特性,开发者会对权重进行INT4量化,并结合MiniKV等KV缓存压缩技术。实验显示,MiniKV在将KV缓存大小减少86%的情况下,依然能保持98.5%以上的下游任务准确度,这对于在内存带宽受限的端侧芯片上维持高频控制循环至关重要。

3.2 实时反馈回路与传感器融合的硬件加速

具身机器人小脑任务的挑战在于处理传感器数据的异质性。例如,特斯拉Optimus Gen 3在其第三代灵巧手中集成了复杂的力觉传感器组,这些传感器需要处理法向力、剪切力和表面纹理特征。

在端侧部署中,这类高频数据的处理流程通常被硬化至DSP或低功耗NPU中。以Nuclei System Technology的RISC-V AI子系统为例,通过集成了RVV 1.0并行计算指令集的CPU与NACC神经网络加速器,可以在极低延迟下完成IMU数据的卡尔曼滤波与足端触觉反馈的解算。这种“小脑”与“外周神经”的异构分工,确保了机器人即使在大脑遭遇网络波动或计算资源被重载任务占据时,依然能依靠本地小脑维持基本的物理平衡和安全避障。

第四章 2025年云边协同技术进展:VLA模型的频率桥接与调度

具身智能最核心的技术难题在于:如何将云端或本地边缘端产出的、具有语义理解能力的VLA模型与底层物理执行器的毫秒级脉冲同步。

4.1 频率桥接:10Hz决策与1000Hz动作的同频共振

2025年,全球主流技术路线(如Google RT-2, Figure 02, π0)普遍采用异步分层架构来解决频率差异。其核心机制如下:

  1. 分层预测模型:云端大脑(如运行在H100集群上的大模型)基于当前视觉帧($v_t$)和语音指令($t_t$)生成一个高层的动作意图描述(如“末端执行器向坐标A移动,保持抓取力为B”),频率约为5-10Hz。
  2. 势能场/轨迹描述子转化:这些指令不直接发送给驱动器,而是转化为一组时变的势能场参数或三次样条曲线参数。
  3. 端侧高频插值与跟踪:端侧小脑芯片(如Thor)接收这些参数,并在本地以1kHz的频率进行Tracking Control。即使云端延迟增加,端侧仍能根据上一帧收到的参数集进行合理的预测性执行。

4.2 基于异构芯片的资源隔离与调度协同

在单机多芯片或异构SoC(多核CPU + GPU + NPU)环境下,资源竞争会导致严重的Jitter。2025年的行业实践引入了更精细的调度机制。

4.2.1 UMA与NUMA架构的取舍

在具身机器人SoC设计中,统一内存访问(UMA)因其编程简单而被广泛采用,但在高并发场景下容易产生总线带宽争抢。2025年,高性能机器人系统开始借鉴数据中心的NUMA理念,将视觉处理单元VPU与本地缓存绑定,减少跨节点内存访问导致的随机延迟。

4.2.2 ChatVLA框架下的任务隔离

ChatVLA等先进框架在架构设计上引入了MoE思想。在MLP层中,ChatVLA区分了“Control Expert”和“Understanding Expert”。在底层硬件调度时,这种逻辑隔离被映射到芯片的物理核上。例如,在Ascend 950上,SIMD单元专门负责高频的控制张量运算,而SIMT单元则处理更具弹性的理解任务,两者通过128字节的细粒度访存进行快速同步,从而避免了相互间的参数空间冲突。

第五章 软件中间件的深度优化:ROS2在异构环境下的进化

2025年,ROS2已进化为人形机器人的事实标准。针对具身智能的特殊需求,ROS2在通信机制和执行效率上进行了显著改进。

5.1 零拷贝与内存共享的极限压榨

为了满足8K高清视觉和激光雷达点云的实时传输,ROS2在2025年全面普及了基于FastDDS共享内存SHM的零拷贝传输技术。在Linux环境下,通过对/dev/shm路径的深度利用,图像感知节点可以将原始数据直接写入显存共享段,而异构处理器上的感知节点(如运行在Thor MIG实例上的YOLO节点)可以直接引用该内存指针。这种方式将跨进程时延从毫秒级降低到了微秒级,并极大节省了CPU在序列化/反序列化过程中的开销。

5.2 确定性执行器Determinate Executor的引入

传统的ROS2执行器采用基于回调函数的公平调度,但在具身控制中,这种模式会导致灾难性的优先级反转Priority Inversion。2025年的实时性增强方案(如CallbackIsolatedExecutor)通过为每个执行器分配独立的OS线程优先级,并引入Skipping Scheme来绕过低优先级的阻塞任务,确保了Control Chain的端到端响应时间是可预测的。

第六章 行业前沿案例深度解析:特斯拉Optimus与Figure 02

6.1 特斯拉Optimus Gen 3:硬件与计算的物理一致性

特斯拉Optimus在2025年展现出的惊人进化,其背后是“极致减负”的异构设计。Optimus并没有使用昂贵的离散计算单元,而是深度复用了特斯拉FSD的自研芯片架构。

其部署细节中的“Physics-first principles”值得行业深思:Optimus将大量的计算任务下沉到了关节端的微型控制器中,每一个Actuator都具备一定的本地解算能力,这种高度分布式的“边缘神经丛”架构,减轻了中央主控芯片大脑的负担。同时,Optimus通过使用高性能的铝合金与碳纤维框架,不仅实现了轻量化,更将其作为了散热系统的延伸,支持端侧芯片在全功率状态下长时间运行。

6.2 Figure 02:云-边-端三位一体的协同范式

Figure 02作为2025年另一款现象级产品,其核心突破在于将NVIDIA的整个生态闭环化。通过NVIDIA Isaac Sim生成的Synthetic Data训练出的模型,在Jetson Thor上实现了几乎零误差的Sim-to-Real迁移。

Figure 02在端侧配备了两块NVIDIA RTX GPU模块,实现了比前代提升3倍的推理能力。这种冗余设计并非算力的简单堆叠,而是为了实现Fully Autonomous Tasks与实时Conversational AI的并发。Figure 02与OpenAI的深度合作,也展示了云端大脑GPT-5级能力如何通过低延迟链路下发逻辑规划,再由端侧Thor芯片转化为具体抓取力度的协同细节。

第七章 总结与2025-2027年技术展望

2025年不仅是具身智能端侧芯片的算力爆发年,更是异构协同技术的成熟年。从NVIDIA Jetson Thor的Blackwell架构,到国产厂商在BPU、RISC-V以及高带宽内存上的差异化创新,行业正逐步走出“通用芯片+通用系统”的草局,进入“专用物理AI芯片+确定性中间件+云边分层大脑”的纵深地带。

未来两年的核心演进方向将聚焦于以下三点:

  1. 端侧KV缓存与长上下文优化:随着具身机器人需要理解的任务越来越复杂,端侧芯片对大规模KV缓存的管理能力将成为决定机器人是否具备“持久记忆”的关键。
  2. 安全性与确定性调度的标准化:随着人形机器人进入家庭和工厂,如何从芯片底层保证控制信号的不可抢占性,将成为继算力之后的第二生命线。
  3. 异构生态的开放与融合:以RISC-V为代表的开放架构将进一步向具身领域渗透,为开发者提供更灵活的底层指令定义能力,从而实现更高能效比的“端侧小脑”。

对于具身智能开发者而言,理解端侧芯片的异构本质,学会利用MIG、SHM零拷贝及D-PPO蒸馏等底层技术,将是构建具备全球竞争力的具身产品、从“动作模仿”走向“物理精通”的必由之路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1185619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习计算机毕设之基于人工智能python-深度学习CNN-pytorch训练识别蝴蝶-蚂蚱等昆虫

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

力扣每日一练——Java

目录 一、字形变换 二、删除有序数组中的重复项 三、移除元素 四、找出字符串中第一个匹配项的下标 一、字形变换 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 "PAYPALISHIRING" 行数为 3 时…

NEAR协议:从AI研究到Web3基础层的进化之路

在区块链技术快速演进的今天,NEAR协议以其独特的分片架构和用户友好的设计理念,正成为构建下一代互联网应用的重要基础设施。本文将深入探讨NEAR的历史渊源、技术架构、核心价值与未来发展方向。一、历史起源:从AI研究到区块链实践NEAR协议的…

Go 连接mysql添加时区

import (_ "github.com/gogf/gf/contrib/drivers/mysql/v2" )mysql:root:123456tcp(127.0.0.1:3306)/star?charsetutf8mb4&parseTimeTrue&locAsia%2FShanghai

BNB链:从交易所代币到Web3基础设施的进化之路

在区块链世界竞争日益激烈的今天,BNB链以其独特的发展路径和技术架构,已成为连接传统金融与去中心化世界的重要桥梁。本文将深入解析BNB链的历史演进、技术架构、生态价值与未来展望。一、历史演进:从交易所代币到公链巨头BNB的发展历程堪称区…

深度学习毕设项目:基于python-深度学习CNN-pytorch训练识别蝴蝶-蚂蚱等昆虫

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Cosmos:构建区块链互联网的宏伟蓝图与实践之路

在区块链技术蓬勃发展的今天,我们目睹了数以千计的区块链网络诞生,但它们大多如同孤岛,难以相互通信和协作。Cosmos(宇宙)应运而生,它并非一条单一的区块链,而是一个旨在连接这些孤岛、构建“区…

深度解析var、let、const的区别与最佳使用场景

深度解析var、let、const的区别与最佳使用场景在JavaScript的变量声明体系中,var、let、const是三种核心方式。ES6(ECMAScript 2015)引入let和const后,彻底改变了JS的变量作用域机制,解决了var长期存在的设计缺陷。很多…

Polygon链:从以太坊侧链到Web3基础设施的演进之路

在区块链技术快速发展的今天,Polygon(原名Matic Network)已从解决以太坊拥堵问题的侧链,演进为旨在构建"互联网价值层"的多链网络。它不仅提供了高扩展性的底层设施,还通过创新的ZK技术和代币经济模型&#…

Selenium+Python可通过 元素定位→操作模拟→断言验证 三步实现Web自动化测试

一、环境搭建(5分钟完成)1. 安装依赖bash# 安装Selenium库 pip install selenium 下载浏览器驱动(需与浏览器版本匹配):Chrome驱动:https://sites.google.com/chromium.org/driver/下载后放入Python安装…

深度学习计算机毕设之基于卷神经网络python-CNN深度学习识别猫脸

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

MBA必备!10个降AI率工具高效推荐

MBA必备!10个降AI率工具高效推荐 AI降重工具:MBA论文的高效护航者 在当前学术研究日益依赖人工智能技术的背景下,MBA学生在撰写论文时常常面临一个共同难题——如何有效降低AIGC率、去除AI痕迹,同时又不破坏文章的逻辑性和专业性。…

深度学习计算机毕设之基于python-CNN卷积神经网络人工智能的柑橘成熟度识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

别再让 Cursor 只当编辑器了!4 步解锁 Claude 官方技能!

别再让 Cursor 只当编辑器了!4 步解锁 Claude 官方技能!

《source insight》添加对.s文件的支持

今天发现source insight 3.5中默认忽略.s文件,这里添加对.s文件的支持。

深度实践!提示工程架构师与Agentic AI环境监测深度

深度实践!提示工程架构师与Agentic AI环境监测深度 一、引言:环境监测的“痛点”与Agentic AI的“解药” 1.1 环境监测的现状困境 清晨打开手机,你看到“空气质量良”的提示,但楼下的雾霾却让你咳嗽不止——这不是科幻电影&#x…

【毕业设计】基于python-深度学习CNN-pytorch训练识别蝴蝶-蚂蚱等昆虫

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【毕业设计】基于python-CNN深度学习识别猫脸

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

3D建模中的提示工程实战:生成影视道具完整案例

3D建模中的提示工程实战:生成影视道具完整案例 一、引言:影视道具设计师的“效率瓶颈”与AI的救赎 1. 钩子:你是否经历过“道具设计的死循环”? 作为一名影视道具设计师,我曾无数次陷入这样的困境: 导演说“…

【课程设计/毕业设计】基于深度学习python-CNN卷积神经网络的柑橘成熟度识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…