【论文自动阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

快速了解部分

基础信息(英文):

  1. X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
  2. 2025-10
  3. Tsinghua University, Shanghai AI Lab, Peking University
  4. Vision-Language-Action (VLA), Soft Prompt, Cross-Embodiment

1句话通俗总结本文干了什么事情

本文提出了一种名为 X-VLA 的通用机器人控制模型,利用“软提示(Soft Prompt)”技术,让一个模型能通过学习不同机器人的数据来掌握通用技能,并能快速适应从未见过的新机器人。

研究痛点:现有研究不足 / 要解决的具体问题

现有的通用 VLA 模型在混合不同机器人(跨具身)数据进行训练时,会因为硬件配置、相机视角和动作空间的巨大差异(异构性)而产生严重的分布偏移和语义错位,导致训练不稳定和泛化能力差。

核心方法:关键技术、模型或研究设计(简要)

提出X-VLA模型,核心是为每个不同的机器人数据源分配一组可学习的Soft Prompt(软提示)参数,将具身特定的差异编码到提示中,从而让主干网络学习具身无关的通用策略,并结合流匹配(Flow-Matching)策略进行动作生成。

深入了解部分

相比前人创新在哪里

  1. 参数高效与稳定性:不同于以往为不同机器人添加复杂的输出头或中间投影层,本文仅用极少的 Soft Prompt 参数(约 1%)就能吸收硬件差异,保持主干网络的通用性,训练更稳定。
  2. 即插即用适应:提出两步适应法(Prompt Warm-up + Joint Policy Adaptation),让预训练模型能极低成本(仅微调 900 万参数)迁移到新机器人上。
  3. 统一架构:完全基于标准 Transformer 编码器,摒弃了复杂的混合架构,实现了模型、数据多样性和数据量的三重扩展。

解决方法/算法的通俗解释

可以把 X-VLA 想象成一个“全能机器人导师”,而 Soft Prompt 就像是给这个导师配备的“翻译笔记”。

  • 当导师教不同机器人时,它先看一眼对应的“翻译笔记”(Soft Prompt)。
  • 这个笔记告诉导师:“我现在面对的是机械臂 A,它的视角是这样的,它的动作范围是那样的”。
  • 导师(主干网络)本身掌握的是通用的物理常识和逻辑,通过结合“笔记”,就能针对特定机器人给出正确的指令,而不需要为每个机器人重新培养一个新导师。

解决方法的具体做法

  1. 引入 Soft Prompt 库:为训练数据中的每个机器人平台(如 Franka, WidowX 等)初始化一组独立的可学习 Embedding 向量(即 Soft Prompt)。
  2. 特征融合:在输入 Transformer 前,将这些 Soft Prompt 与视觉、语言和本体感受(Proprioception)特征拼接。
  3. 流匹配策略:使用 Flow-Matching 算法生成动作,模型通过预测噪声到专家动作的流场来输出控制指令。
  4. 两步微调:在部署到新机器人时,先冻结主干网络训练新 Prompt(热身),再联合微调整个模型。

基于前人的哪些方法

  1. Florence 系列:使用了 Florence-Large 作为视觉-语言编码器,利用其强大的预训练视觉理解能力。
  2. DiT / Transformer 架构:基于标准的 Transformer 编码器块(类似 DiT 的结构)进行序列建模。
  3. 流匹配(Flow Matching):借鉴了生成模型中的流匹配技术用于动作生成,而非传统的扩散模型或行为克隆。

实验设置、数据,评估方式、结论

  1. 数据:预训练混合了 29 万段来自 Droid, Robomind, Agibot 的数据,涵盖 7 个平台、5 种机械臂。
  2. 模型规模:实现了 X-VLA-0.9B(9 亿参数)实例。
  3. 评估:在 6 个模拟基准(包括自动驾驶 NAVSIM)和 3 个真实世界机器人(WidowX, AgileX, AIRBOT)上测试。
  4. 结论
    • 在大多数基准测试中达到 SOTA(最先进)性能。
    • 仅用 1% 的参数微调(PEFT),在 Libero 基准上达到 93% 成功率,在 Simpler-WidowX 上达到 54%。
    • 在真实世界的灵巧操作(布料折叠)任务中,仅用 1200 条数据就实现了高吞吐量。

提到的同类工作

  1. RT-1 / RT-2(Google/Broad)
  2. OpenVLA / π₀(Physical Intelligence)
  3. Octo(Google)

和本文相关性最高的3个文献

  1. π₀ (Black et al., 2025):本文的主要对标模型,X-VLA 在参数效率和部分任务上与其进行了详细对比。
  2. RT-2 (Brohan et al., 2023):视觉-语言-动作模型的奠基性工作,本文的研究动机源于此类模型的扩展。
  3. HPT-style Projection (Wang et al., 2024c):本文在方法论部分重点对比了这种处理异构数据的方法,并指出了其局限性,从而引出 Soft Prompt 的优势。

我的

  1. 主要是soft prompt方法解决了cross embodiment数据集问题。
  2. 有一点是wrist camera没有像head cam一样过VLM,而是只通过vit提特征。因为作者认为现有VLM对多视角不好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

独家解读:OpenAI内部测试体系的致命缺陷

作为AI领域的领军企业,OpenAI凭借ChatGPT等模型引领技术革命,但其内部测试体系却存在系统性漏洞。本文从软件测试专业视角,剖析这些缺陷的根源、影响及改进方向,旨在为测试从业者提供警示与借鉴。全文基于公开案例和行业标准&…

当DevOps遇上AI:持续测试的核动力引擎已点火

DevOps持续测试的瓶颈与AI的崛起 在当今快节奏的软件开发世界中,DevOps已成为企业加速交付的核心方法论,其精髓在于通过持续集成(CI)和持续部署(CD)实现代码到产品的无缝流转。然而,持续测试作…

基于深度学习的条形码检测系统(YOLOv8+YOLO数据集+UI界面+Python项目+模型)

一、项目介绍 摘要 本项目基于先进的YOLOv8(You Only Look Once version 8)目标检测算法,开发了一套高效、精准的条形码检测系统。系统针对单一类别(bar_code)进行优化,使用自定义数据集进行训练和验证。…

LU,智能冷板仪 冷板仪 大小鼠冷热板仪

当冷热板测痛仪的板面温度设定为 4℃ 时,可针对坐骨神经病理性疼痛模型动物开展实验,受试药物的作用效果能够通过动物在冷板上的抬足时间与抬足次数的显著变化来体现。将板面温度设定为 55℃ 时,则可精准测定动物的生理性痛阈,进而…

LabVIEW实现网口TCP通讯西门子PLC全系列,超神玩法

LabVIEW网口TCP通讯西门子PLC,支持200、300、1200、1500、400、SMART全系列PLC S7协议官方工具包, 常用功能一网打尽。 1.命令帧读写。程序源码,命令帧文本编写,不调用dll,不安装插件,完胜OPC 等。 原创视频…

Java毕设项目:基于Java+SpringBoot的药店药品库存销售管理系统设计与实现基于SpringBoot的药店管理系统设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java计算机毕设之基于SpringBoot的药店药品管理系统的设计与实现基于SpringBoot的药店管理系统设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

电荷流分析

电荷流分析方法[1]电荷流动分析方法在论文[4]中提出,其可以计算变换器的变比N和等效输出电阻Rout。此外,该方法还可用于合理选择电容和开关的尺寸。首先分析两相变换器,对于电荷流向量,包含了两种分别为:电容电荷流向量…

LDO补偿方法学习

一、不同放大器的简化框图 1.1、共源极放大器 1.2、共漏极放大器 1.3、共栅极放大器 二、无补偿 无补偿时传统的二级LDO结构存在至少两个极点: 三、简单密勒补偿 【简单密勒补偿相比于无补偿的放大器其主极点的位置可以由密勒近似进行估算,而输出极点的…

基于深度学习的学生课堂行为检测系统(YOLOv8+YOLO数据集+UI界面+Python项目+模型)

一、项目介绍 摘要 本项目基于YOLOv8目标检测算法开发了一套学生课堂行为智能检测系统,专门用于识别和分析学生在课堂上的六种典型行为状态。系统能够实时检测并分类以下行为:举手(hand-raising)、阅读(reading)、书写(writing)、使用手机(using phone…

别等被攻击才重视!不懂黑客技术也能下手,SQL 注入 + ARP 防护实操指南!

作为涉网违法犯罪活动的典型代表之一,黑客类犯罪主要包括非法获取计算机信息系统数据、非法控制计算机信息系统、非法侵入计算机信息系统等。半月谈记者从北京市公安局网安总队了解到,去年以来,北京警方共计侦破黑客类案件113起,部…

知识图谱(二)之doccano的使用

一:doccano简介Doccano(多卡诺)是一种用于文本标注的开源工具,支持多种常见的文本标注任务,如命名实体识别、文本分类、关系抽取等。二:doccano之文本分类任务2.1创建数据集2.1.1支持的数据集类型TextFile:把整个文件当做对象Text…

Typora下载与激活

下载 下载这一步很关键,一定要下对版本,本教程只支持 1.10.x以前的版本 安装包和补丁下载 1、历史版本安装包 2、补丁提取码:7ih6 安装 根据需求下载如下版本: 根据顺序依次按照可自定义安装路径 如D:\Typora一直下一步&…

【毕业设计】基于SpringBoot的药店销售管理系统设计与实现基于SpringBoot的药店管理系统设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

知识图谱(三)之知识查询语言

一:查询语言介绍1.为什么不使用sql关系型数据库查询语言——SQL方式:数据以表的形式存在, 有比较强的schema定义, 表和表之间的数据关联以join的方式实现.缺点:MySQL主要是存储和查询二维表数据,对三元组数据没有单独意义;多跳关联…

救命!挖到零基础转网安捷径!超详细建议 + 分步骤教学,从入门到精通不踩坑!

运维工程师的日常工作 作为一名运维工程师,每天日常工作主要包括监控系统健康状况、处理紧急故障、进行系统优化、执行数据备份与恢复、以及参与IT项目和软硬件维护。监控系统健康状况是运维工程师的核心任务之一,涉及到使用各种监控工具来检测、记录系…

【毕业设计】基于Java的小区旧衣物回收与捐赠系统设计与实现基于SpringBoot的社区旧衣物回收与捐赠系统设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

学霸同款2026 10款一键生成论文工具测评:本科生毕业论文必备清单

学霸同款2026 10款一键生成论文工具测评:本科生毕业论文必备清单 2026年学术写作工具测评:为什么你需要这份榜单? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具提升论文写作效率。然而,面对市场上五花八…

【课程设计/毕业设计】基于SpringBoot+Vue的西医药店药品管理系统的设计与实现基于SpringBoot的药店管理系统设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

恐怖!不懂黑客技术也能发起攻击?SQL 注入 / ARP 防护等关键防御必学!

作为涉网违法犯罪活动的典型代表之一,黑客类犯罪主要包括非法获取计算机信息系统数据、非法控制计算机信息系统、非法侵入计算机信息系统等。半月谈记者从北京市公安局网安总队了解到,去年以来,北京警方共计侦破黑客类案件113起,部…