前言
由于最近我司接到几个订单中,有一个涉及到快递分拣,背后对应着抓取的成功率与泛化性
故关注到本文要介绍的GraspVLA,当然,只是做下了解和参考,不代表用到了我司的项目中
- 其paper地址为:GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
作者包括
Shengliang Deng∗,1,3 Mi Yan∗,1,2 Songlin Wei1,2 Haixin Ma1 Yuxin Yang1 Jiayi Chen1,2 Zhiqi Zhang1,2 Taoyu Yang2 Xuheng Zhang2 Wenhao Zhang2 Heming Cui3 Zhizheng Zhang†,1,4 He Wang†,1,2,4 - 其项目地址为:pku-epic.github.io/GraspVLA-web
其GitHub地址:github.com/PKU-EPIC/GraspVLA
第一部分
1.1 引言与相关工作
1.1.1 引言
如原论文所述,作者系统性地探索合成数据在训练 VLA 模型中的潜力,作为迈向这一方向的第一步,他们将重点放在抓取这一机器人操作中的基础技能上
- 首先构建了一个包含十亿帧抓取数据的数据集 SynGrasp-1B,该数据集基于先进的光线追踪渲染 [11] 和物理仿真 [12],是全球首个达到此规模的数据集
该数据集包含来自 240 个类别的 10,000个独特物体,并进行了大规模的领域随机化,从而实现对几何和视觉变化的广泛覆盖 - 为高效地从该数据集学习,来自1 Galbot, 2 Peking University, 3 The University of Hong Kong, 4 Beijing Academy of Artificial Intelligence的研究者提出了GraspVLA,这是一种端到端网络,将自回归式感知任务与基于 flow matching 的动作生成整合进一个统一的 Chain-of-Thought(CoT)过程中,称为 Progressive Action Generation(PAG,渐进式动作生成)
————
PAG 将感知任务(即视觉定位和抓取位姿预测)视为动作生成中的中间步骤,从而形成一个以因果方式推断动作的 CoT 过程
这样的设计使得能够在统一框架下对合成数据和互联网数据进行联合训练:其中互联网数据用于训练感知任务(CoT过程的部分阶段),而合成数据用于训练完整的 CoT 流水线
总之,合成数据为物体交互提供了关于物体的精细几何信息,而互联网数据则提供了丰富的物体语义知识
通过利用这两种互补的数据来源,PAG 减小了仿真到真实(sim-to-real)的差距,并促进已学习机器人动作向语义多样、在互联网中广泛出现的物体的迁移,从而实现开放词汇抓取 - 作者宣称,得益于他们精心构建的十亿级规模合成抓取数据集以及所提出的 PAG 机制,GraspVLA 实现了直接的仿真到现实(sim-to-real)迁移泛化,并展现出优异的零样本性能
作者宣称,与传统抓取检测算法的最新方法AnyGrasp [14] 相比,GraspVLA 不仅支持自然语言指令,还能够提供鲁棒的闭环抓取策略
它在常见物体上的表现与 AnyGrasp 相当,但在透明物体上则显著优于 AnyGrasp。并且,GraspVLA 在超出标准抓取行为的特定应用场景中,对用户偏好展现出很强的少样本适应能力,例如为保持清洁而避免接触饮水杯内壁,以及在高密度堆放环境中按顺序抓取瓶子
1.1.2 相关工作
首先,对于视觉-语言-动作(VLA)模型
- 近期,大量工作[15,16,17,18,19,20,21,22,23]通过学习大规模示教数据来探索端到端 VLA 的训练
RT-2 [5] 和 OpenVLA [6] 提出利用预训练的视觉-语言模型(VLM)[24,25],以挖掘互联网数据集中的丰富知识
沿着预训练 VLM 成功的方向,一些工作[26,7,27,8,28,29]进一步探索借助额外的动作专家来生成高保真多模态动作 - 其他工作[30,31,32,33,34,35]则在互联网规模的视频数据上采用生成式预训练,从人类视频中学习
然而,由于真实世界机器人数据规模受限,现有 VLA 模型在部署时主要依赖域内后训练
————
同期工作 π0.5[36] 提出,通过利用多模态网页数据和跨机体数据来提升泛化能力,从而实现直接的“开箱即用”部署
作者宣称,尽管他们的工作同样以零样本部署为目标,但采用了不同的路线——仅在大规模合成数据上进行预训练——并展现出强大的零样本泛化能力
其次,对于合成数据
- 随着 GPU 加速仿真和照片级真实感渲染的快速发展,合成数据生成已成为训练机器人模型的一种流行方法
以往工作 [37,38,39] 率先利用带有域随机化的仿真数据来训练开环抓取模型
近来,若干工作 [40,41,42] 在仿真环境中通过随机化物体配置并利用运动规划生成逼真的机器人轨迹,探索自动扩增人类示范数据 - 另一类工作 [43,44,45,46] 则在无需任何物理仿真的情况下,从少量人类示范出发,利用文本到图像生成模型和多视图立体渲染来合成数据
尽管这些方法[47] 仍依赖人类示范来生成增广数据,作者的工作则探索通过利用大规模合成数据以及预训练视觉和语言主干网络,实现直接的仿真到现实(sim-to-real)迁移
最后,对于抓取
- 抓取是具身智能体的一项核心技能 [48],在过去十年中受到广泛研究。一些工作通过开环抓取检测 [49,14,50] 来解决该问题,然后利用运动规划器控制末端执行器
这类基于模块的系统通常存在深度感知能力不足 [51],且缺乏故障恢复行为 [52,53] 等问题
另一条研究路线则以视觉为基础,采用端到端且闭环的方式构建抓取系统,可以基于强化学习 [54] 或模仿学习 [55] - 随着视觉-语言基础模型 [1,56,57] 的出现,一些工作通过构建将抓取检测模型与VLM 相结合的模块化系统,试图将抓取泛化到开放词表的物体[58,59,60,61,62]
尽管这些方法在标准抓取任务上取得了显著效果,但在适应带有特定约束的抓取等专业化任务时仍面临挑战
1.2 SynGrasp-1B 数据集生成
如原论文所述,训练一个具有良好泛化能力的基础模型,需要一个涵盖多样物体和环境条件的大规模数据集。相比依赖代价高昂的现实世界人工数据采集,作者提出完全基于合成数据进行训练——在只需原本一小部分时间和成本的前提下获得更高的多样性
1.2.1 物体资产与布局生成
作者使用 Objaverse 数据集 [63] 中的 LVIS 子集,并仔细过滤掉武器等不合适的类别,最终得到共 240 个类别和 10,680 个实例
且作者对这些物体进行随机缩放,并以各种姿态将其投放到桌面上,从而生成多样且物理上合理的场景。更多细节见补充材料
1.2.2 抓取合成与轨迹生成附
给定初始布局,作者利用先进的模块化系统建立专家策略,用于生成高质量的抓取与提举目标物体的轨迹
- 对于每一个物体实例,作者采用抓取合成算法 [64] 生成稳定的对指抓取
- 随后,作者使用运动规划算法 CuRobo [65] 规划无碰撞轨迹,以到达开环抓取位姿并将物体提起
且作者在MuJoCo 物理仿真器 [12] 中验证所有候选轨迹,以确保物体能够被成功提起
1.2.3 视觉随机化与渲染
借助多样化的布局及其对应的轨迹,作者使用 Isaac Sim [66] 渲染高质量的 RGB 图像,并在光照、背景以及相机设置上进行随机化
- Isaac Sim 提供高效的、具有照片真实感的光线追踪渲染。且作者采用多种光源并进行大范围随机化,包括点光源、方向光源和穹顶光源
- 图像从两个不同的视角进行渲染,以便对场景形成全面观测,并在预定义中心附近对相机外参进行随机扰动。更多细节见补充材料
1.2.4 高效数据生成、为模仿学习裁剪数据
此外,作者进一步强调在设计数据生成流水线时的两个主要考量:
- 高效数据生成
作者提出三项关键策略来提升效率
1) 高质量网格通常体积庞大,导致加载时间长且内存占用高。对此,作者实现了一种缓存机制,在保证数据多样性的同时避免重复加载
2) 其次,作者实现了异步数据写入,使图像和标注可以并行保存,从而提升整体数据生成效率
3) 最后,作者采用并行的物理仿真与渲染,以进一步提高效率。更多细节请参见补充材料 - 为模仿学习裁剪数据
为了降低模仿学习的难度,作者引入了两点改进首先,尽管开环抓取 [14] 为避免碰撞采用了两步流程(先进行预抓取定位,然后执行抓取),但这种分段式方法会在动作中产生停顿
在此类数据上训练得到的模仿策略往往会表现出犹豫不决的行为 [6,67]
为此,作者改用单步运动规划,在规划时将轨迹的平滑性置于规划成功率之上进行优先考虑其次,作者对机器人的初始姿态进行随机化,以提升专家示范在工作空间中的探索度和观测多样性,从而增强模型的鲁棒性 [68]
通过这一流水线,作者使用 160 块 NVIDIA 4090 GPU 连续运行 10 天,生成了包含十亿帧的数据集 SynGrasp-1B
ps,作者在附录中提供了关于数据多样性的分析
1.3 模型
1.3.1 整体架构
GraspVLA 将视觉语言模型(VLM)与动作专家 [7] 集成起来,并通过渐进式动作生成(Progressive Action Generation, PAG)机制相连接,如图 3 所示『GraspVLA 由自回归视觉-语言骨干网络和基于流匹配的动作专家组成。它通过“渐进式动作生成”机制,充分利用互联网指代数据与合成动作数据之间的协同效应:模型首先在合成数据和网页数据上预测目标物体的2D边界框,并在合成数据上进一步生成:抓取姿态和分段动作』
- VLM 接收观测图像和文本指令,用于实现视觉与语言的联合感知
它由
一个可训练的大型语言模型(InternLM2 1.8B [69])
一个受 OpenVLA [6] 启发、用于融合冻结的DINO-v2 [70] 与SigLIP [71] 特征的视觉编码器
以及一个从视觉空间到语言空间的可训练投影器组成
且作者采用条件流匹配(conditional flow matching)动作专家 [72] 来生成细粒度的末端执行器动作 - 此外,作者进一步引入 PAG,以高效地将从互联网 grounding 数据集学习到的知识迁移到抓取技能上
1.3.2 渐进式动作生成
虽然 GraspVLA 从他们的SynGrasp-1B数据集中学习到了具有泛化能力的抓取技能,但它仍然受限于该合成数据集中所包含的类别集合
为了将抓取策略扩展到新的类别
- 一种直接的方法是将其与互联网 grounding 数据集作为独立任务进行联合训练,并依赖模型将其在 grounding 数据集中学到的物体类别隐式泛化到抓取任务中
- 另一种方式即是Progressive Action Generation(简称PGA),作者将图像定位和抓取位姿预测建模为生成动作的中间步骤
对于后者,具体而言
- VLM 被训练在统一的格式下,为互联网 grounding 数据集和合成动作数据集同时生成 2D 边界框
- 随后,对于合成数据集,VLM 进一步在机器人的基座坐标系中预测目标抓取位姿
- 最后,动作专家根据 VLM 针对输入和中间推理 token 所产生的键值缓存(key-value cache)生成动作片段(action chunk)
————
为促进精确的 3D 感知,最近两个时间步的本体感知数据被离散为 token,并在生成抓取位姿之前插入序列中
为使互联网数据集与SynGrasp-1B的双相机配置对齐,输入图像会被复制以匹配视角数量,并分别进行随机缩放、裁剪、水平翻转和颜色抖动等增强处理
两个数据集共享同一个文本提示模板,且均先生成边界框 token
这一统一的训练策略充分利用了互联网图像定位数据集与合成数据集之间的协同效应,并类似于在大型语言模型中被广泛研究且被证明能有效处理高度复杂任务的思维链(Chain-of-Thought)推理机制 [73]
1.3.3 VLM 与动作专家的联合训练
在每个 batch 中,作者从互联网数据集(GRIT [74])和合成动作数据集中随机采样
前者仅用于以自回归方式监督 VLM 的边界框预测,后者则同时监督边界框、抓取姿态以及基于 flow-matching 的动作预测
VLM 的损失函数形式上定义为:
其中,和
分别是边界框与抓取位姿两类 token 序列的长度,
和
是各自序列中位置
处的 token,
则表示输入的图像和文本
动作专家通过对分块后的末端执行器增量动作(end-effector delta actions)施加 flow matching 损失进行监督学习:
其中是流匹配的时间步,
是在
时刻加噪的动作主干,
是模型预测的流匹配向量场,
是真实向量场
作者宣称,他们通过实验证明,将和
简单相加作为整体损失可以带来良好的性能
// 待更