快速了解部分
基础信息(英文):
- X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
- 2025-10
- Tsinghua University, Shanghai AI Lab, Peking University
- Vision-Language-Action (VLA), Soft Prompt, Cross-Embodiment
1句话通俗总结本文干了什么事情
本文提出了一种名为 X-VLA 的通用机器人控制模型,利用“软提示(Soft Prompt)”技术,让一个模型能通过学习不同机器人的数据来掌握通用技能,并能快速适应从未见过的新机器人。
研究痛点:现有研究不足 / 要解决的具体问题
现有的通用 VLA 模型在混合不同机器人(跨具身)数据进行训练时,会因为硬件配置、相机视角和动作空间的巨大差异(异构性)而产生严重的分布偏移和语义错位,导致训练不稳定和泛化能力差。
核心方法:关键技术、模型或研究设计(简要)
提出X-VLA模型,核心是为每个不同的机器人数据源分配一组可学习的Soft Prompt(软提示)参数,将具身特定的差异编码到提示中,从而让主干网络学习具身无关的通用策略,并结合流匹配(Flow-Matching)策略进行动作生成。
深入了解部分
相比前人创新在哪里
- 参数高效与稳定性:不同于以往为不同机器人添加复杂的输出头或中间投影层,本文仅用极少的 Soft Prompt 参数(约 1%)就能吸收硬件差异,保持主干网络的通用性,训练更稳定。
- 即插即用适应:提出两步适应法(Prompt Warm-up + Joint Policy Adaptation),让预训练模型能极低成本(仅微调 900 万参数)迁移到新机器人上。
- 统一架构:完全基于标准 Transformer 编码器,摒弃了复杂的混合架构,实现了模型、数据多样性和数据量的三重扩展。
解决方法/算法的通俗解释
可以把 X-VLA 想象成一个“全能机器人导师”,而 Soft Prompt 就像是给这个导师配备的“翻译笔记”。
- 当导师教不同机器人时,它先看一眼对应的“翻译笔记”(Soft Prompt)。
- 这个笔记告诉导师:“我现在面对的是机械臂 A,它的视角是这样的,它的动作范围是那样的”。
- 导师(主干网络)本身掌握的是通用的物理常识和逻辑,通过结合“笔记”,就能针对特定机器人给出正确的指令,而不需要为每个机器人重新培养一个新导师。
解决方法的具体做法
- 引入 Soft Prompt 库:为训练数据中的每个机器人平台(如 Franka, WidowX 等)初始化一组独立的可学习 Embedding 向量(即 Soft Prompt)。
- 特征融合:在输入 Transformer 前,将这些 Soft Prompt 与视觉、语言和本体感受(Proprioception)特征拼接。
- 流匹配策略:使用 Flow-Matching 算法生成动作,模型通过预测噪声到专家动作的流场来输出控制指令。
- 两步微调:在部署到新机器人时,先冻结主干网络训练新 Prompt(热身),再联合微调整个模型。
基于前人的哪些方法
- Florence 系列:使用了 Florence-Large 作为视觉-语言编码器,利用其强大的预训练视觉理解能力。
- DiT / Transformer 架构:基于标准的 Transformer 编码器块(类似 DiT 的结构)进行序列建模。
- 流匹配(Flow Matching):借鉴了生成模型中的流匹配技术用于动作生成,而非传统的扩散模型或行为克隆。
实验设置、数据,评估方式、结论
- 数据:预训练混合了 29 万段来自 Droid, Robomind, Agibot 的数据,涵盖 7 个平台、5 种机械臂。
- 模型规模:实现了 X-VLA-0.9B(9 亿参数)实例。
- 评估:在 6 个模拟基准(包括自动驾驶 NAVSIM)和 3 个真实世界机器人(WidowX, AgileX, AIRBOT)上测试。
- 结论:
- 在大多数基准测试中达到 SOTA(最先进)性能。
- 仅用 1% 的参数微调(PEFT),在 Libero 基准上达到 93% 成功率,在 Simpler-WidowX 上达到 54%。
- 在真实世界的灵巧操作(布料折叠)任务中,仅用 1200 条数据就实现了高吞吐量。
提到的同类工作
- RT-1 / RT-2(Google/Broad)
- OpenVLA / π₀(Physical Intelligence)
- Octo(Google)
和本文相关性最高的3个文献
- π₀ (Black et al., 2025):本文的主要对标模型,X-VLA 在参数效率和部分任务上与其进行了详细对比。
- RT-2 (Brohan et al., 2023):视觉-语言-动作模型的奠基性工作,本文的研究动机源于此类模型的扩展。
- HPT-style Projection (Wang et al., 2024c):本文在方法论部分重点对比了这种处理异构数据的方法,并指出了其局限性,从而引出 Soft Prompt 的优势。
我的
- 主要是soft prompt方法解决了cross embodiment数据集问题。
- 有一点是wrist camera没有像head cam一样过VLM,而是只通过vit提特征。因为作者认为现有VLM对多视角不好。