GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

前言

由于最近我司接到几个订单中,有一个涉及到快递分拣,背后对应着抓取的成功率与泛化性

故关注到本文要介绍的GraspVLA,当然,只是做下了解和参考,不代表用到了我司的项目中

  • 其paper地址为:GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
    作者包括
    Shengliang Deng∗,1,3 Mi Yan∗,1,2 Songlin Wei1,2 Haixin Ma1 Yuxin Yang1 Jiayi Chen1,2 Zhiqi Zhang1,2 Taoyu Yang2 Xuheng Zhang2 Wenhao Zhang2 Heming Cui3 Zhizheng Zhang†,1,4 He Wang†,1,2,4
  • 其项目地址为:pku-epic.github.io/GraspVLA-web
    其GitHub地址:github.com/PKU-EPIC/GraspVLA

第一部分

1.1 引言与相关工作

1.1.1 引言

如原论文所述,作者系统性地探索合成数据在训练 VLA 模型中的潜力,作为迈向这一方向的第一步,他们将重点放在抓取这一机器人操作中的基础技能上

  1. 首先构建了一个包含十亿帧抓取数据的数据集 SynGrasp-1B,该数据集基于先进的光线追踪渲染 [11] 和物理仿真 [12],是全球首个达到此规模的数据集
    该数据集包含来自 240 个类别的 10,000个独特物体,并进行了大规模的领域随机化,从而实现对几何和视觉变化的广泛覆盖
  2. 为高效地从该数据集学习,来自1 Galbot, 2 Peking University, 3 The University of Hong Kong, 4 Beijing Academy of Artificial Intelligence的研究者提出了GraspVLA,这是一种端到端网络,将自回归式感知任务与基于 flow matching 的动作生成整合进一个统一的 Chain-of-Thought(CoT)过程中,称为 Progressive Action Generation(PAG,渐进式动作生成)
    ————
    PAG 将感知任务(即视觉定位和抓取位姿预测)视为动作生成中的中间步骤,从而形成一个以因果方式推断动作的 CoT 过程
    这样的设计使得能够在统一框架下对合成数据和互联网数据进行联合训练:其中互联网数据用于训练感知任务(CoT过程的部分阶段),而合成数据用于训练完整的 CoT 流水线

    总之,合成数据为物体交互提供了关于物体的精细几何信息,而互联网数据则提供了丰富的物体语义知识
    通过利用这两种互补的数据来源,PAG 减小了仿真到真实(sim-to-real)的差距,并促进已学习机器人动作向语义多样、在互联网中广泛出现的物体的迁移,从而实现开放词汇抓取
  3. 作者宣称,得益于他们精心构建的十亿级规模合成抓取数据集以及所提出的 PAG 机制,GraspVLA 实现了直接的仿真到现实(sim-to-real)迁移泛化,并展现出优异的零样本性能

    作者宣称,与传统抓取检测算法的最新方法AnyGrasp [14] 相比,GraspVLA 不仅支持自然语言指令,还能够提供鲁棒的闭环抓取策略
    它在常见物体上的表现与 AnyGrasp 相当,但在透明物体上则显著优于 AnyGrasp。并且,GraspVLA 在超出标准抓取行为的特定应用场景中,对用户偏好展现出很强的少样本适应能力,例如为保持清洁而避免接触饮水杯内壁,以及在高密度堆放环境中按顺序抓取瓶子

1.1.2 相关工作

首先,对于视觉-语言-动作(VLA)模型

  1. 近期,大量工作[15,16,17,18,19,20,21,22,23]通过学习大规模示教数据来探索端到端 VLA 的训练
    RT-2 [5] 和 OpenVLA [6] 提出利用预训练的视觉-语言模型(VLM)[24,25],以挖掘互联网数据集中的丰富知识
    沿着预训练 VLM 成功的方向,一些工作[26,7,27,8,28,29]进一步探索借助额外的动作专家来生成高保真多模态动作
  2. 其他工作[30,31,32,33,34,35]则在互联网规模的视频数据上采用生成式预训练,从人类视频中学习
    然而,由于真实世界机器人数据规模受限,现有 VLA 模型在部署时主要依赖域内后训练
    ————
    同期工作 π0.5[36] 提出,通过利用多模态网页数据和跨机体数据来提升泛化能力,从而实现直接的“开箱即用”部署
    作者宣称,尽管他们的工作同样以零样本部署为目标,但采用了不同的路线——仅在大规模合成数据上进行预训练——并展现出强大的零样本泛化能力

其次,对于合成数据

  1. 随着 GPU 加速仿真和照片级真实感渲染的快速发展,合成数据生成已成为训练机器人模型的一种流行方法
    以往工作 [37,38,39] 率先利用带有域随机化的仿真数据来训练开环抓取模型
    近来,若干工作 [40,41,42] 在仿真环境中通过随机化物体配置并利用运动规划生成逼真的机器人轨迹,探索自动扩增人类示范数据
  2. 另一类工作 [43,44,45,46] 则在无需任何物理仿真的情况下,从少量人类示范出发,利用文本到图像生成模型和多视图立体渲染来合成数据
    尽管这些方法[47] 仍依赖人类示范来生成增广数据,作者的工作则探索通过利用大规模合成数据以及预训练视觉和语言主干网络,实现直接的仿真到现实(sim-to-real)迁移

最后,对于抓取

  1. 抓取是具身智能体的一项核心技能 [48],在过去十年中受到广泛研究。一些工作通过开环抓取检测 [49,14,50] 来解决该问题,然后利用运动规划器控制末端执行器
    这类基于模块的系统通常存在深度感知能力不足 [51],且缺乏故障恢复行为 [52,53] 等问题
    另一条研究路线则以视觉为基础,采用端到端且闭环的方式构建抓取系统,可以基于强化学习 [54] 或模仿学习 [55]
  2. 随着视觉-语言基础模型 [1,56,57] 的出现,一些工作通过构建将抓取检测模型与VLM 相结合的模块化系统,试图将抓取泛化到开放词表的物体[58,59,60,61,62]
    尽管这些方法在标准抓取任务上取得了显著效果,但在适应带有特定约束的抓取等专业化任务时仍面临挑战

1.2 SynGrasp-1B 数据集生成

如原论文所述,训练一个具有良好泛化能力的基础模型,需要一个涵盖多样物体和环境条件的大规模数据集。相比依赖代价高昂的现实世界人工数据采集,作者提出完全基于合成数据进行训练——在只需原本一小部分时间和成本的前提下获得更高的多样性

1.2.1 物体资产与布局生成

作者使用 Objaverse 数据集 [63] 中的 LVIS 子集,并仔细过滤掉武器等不合适的类别,最终得到共 240 个类别和 10,680 个实例

且作者对这些物体进行随机缩放,并以各种姿态将其投放到桌面上,从而生成多样且物理上合理的场景。更多细节见补充材料

1.2.2 抓取合成与轨迹生成附

给定初始布局,作者利用先进的模块化系统建立专家策略,用于生成高质量的抓取与提举目标物体的轨迹

  1. 对于每一个物体实例,作者采用抓取合成算法 [64] 生成稳定的对指抓取
  2. 随后,作者使用运动规划算法 CuRobo [65] 规划无碰撞轨迹,以到达开环抓取位姿并将物体提起

且作者在MuJoCo 物理仿真器 [12] 中验证所有候选轨迹,以确保物体能够被成功提起

1.2.3 视觉随机化与渲染

借助多样化的布局及其对应的轨迹,作者使用 Isaac Sim [66] 渲染高质量的 RGB 图像,并在光照、背景以及相机设置上进行随机化

  1. Isaac Sim 提供高效的、具有照片真实感的光线追踪渲染。且作者采用多种光源并进行大范围随机化,包括点光源、方向光源和穹顶光源
  2. 图像从两个不同的视角进行渲染,以便对场景形成全面观测,并在预定义中心附近对相机外参进行随机扰动。更多细节见补充材料

1.2.4 高效数据生成、为模仿学习裁剪数据

此外,作者进一步强调在设计数据生成流水线时的两个主要考量:

  • 高效数据生成
    作者提出三项关键策略来提升效率

    1) 高质量网格通常体积庞大,导致加载时间长且内存占用高。对此,作者实现了一种缓存机制,在保证数据多样性的同时避免重复加载
    2) 其次,作者实现了异步数据写入,使图像和标注可以并行保存,从而提升整体数据生成效率
    3) 最后,作者采用并行的物理仿真与渲染,以进一步提高效率。更多细节请参见补充材料
  • 为模仿学习裁剪数据
    为了降低模仿学习的难度,作者引入了两点改进
    首先,尽管开环抓取 [14] 为避免碰撞采用了两步流程(先进行预抓取定位,然后执行抓取),但这种分段式方法会在动作中产生停顿
    在此类数据上训练得到的模仿策略往往会表现出犹豫不决的行为 [6,67]
    为此,作者改用单步运动规划,在规划时将轨迹的平滑性置于规划成功率之上进行优先考虑

    其次,作者对机器人的初始姿态进行随机化,以提升专家示范在工作空间中的探索度和观测多样性,从而增强模型的鲁棒性 [68]
    通过这一流水线,作者使用 160 块 NVIDIA 4090 GPU 连续运行 10 天,生成了包含十亿帧的数据集 SynGrasp-1B
    ps,作者在附录中提供了关于数据多样性的分析

1.3 模型

1.3.1 整体架构

GraspVLA 将视觉语言模型(VLM)与动作专家 [7] 集成起来,并通过渐进式动作生成(Progressive Action Generation, PAG)机制相连接,如图 3 所示『GraspVLA 由自回归视觉-语言骨干网络和基于流匹配的动作专家组成。它通过“渐进式动作生成”机制,充分利用互联网指代数据与合成动作数据之间的协同效应:模型首先在合成数据网页数据上预测目标物体的2D边界框并在合成数据上进一步生成:抓取姿态和分段动作

  1. VLM 接收观测图像和文本指令,用于实现视觉与语言的联合感知
    它由
    一个可训练的大型语言模型(InternLM2 1.8B [69])
    一个受 OpenVLA [6] 启发、用于融合冻结的DINO-v2 [70] 与SigLIP [71] 特征的视觉编码器
    以及一个从视觉空间到语言空间的可训练投影器组成
    且作者采用条件流匹配(conditional flow matching)动作专家 [72] 来生成细粒度的末端执行器动作
  2. 此外,作者进一步引入 PAG,以高效地将从互联网 grounding 数据集学习到的知识迁移到抓取技能上

1.3.2 渐进式动作生成

虽然 GraspVLA 从他们的SynGrasp-1B数据集中学习到了具有泛化能力的抓取技能,但它仍然受限于该合成数据集中所包含的类别集合

为了将抓取策略扩展到新的类别

  1. 一种直接的方法是将其与互联网 grounding 数据集作为独立任务进行联合训练,并依赖模型将其在 grounding 数据集中学到的物体类别隐式泛化到抓取任务中
  2. 另一种方式即是Progressive Action Generation(简称PGA),作者将图像定位和抓取位姿预测建模为生成动作的中间步骤

对于后者,具体而言

  1. VLM 被训练在统一的格式下,为互联网 grounding 数据集和合成动作数据集同时生成 2D 边界框
  2. 随后,对于合成数据集,VLM 进一步在机器人的基座坐标系中预测目标抓取位姿
  3. 最后,动作专家根据 VLM 针对输入和中间推理 token 所产生的键值缓存(key-value cache)生成动作片段(action chunk)
    ————
    为促进精确的 3D 感知,最近两个时间步的本体感知数据被离散为 token,并在生成抓取位姿之前插入序列中

为使互联网数据集SynGrasp-1B的双相机配置对齐,输入图像会被复制以匹配视角数量,并分别进行随机缩放、裁剪、水平翻转和颜色抖动等增强处理

两个数据集共享同一个文本提示模板,且均先生成边界框 token

这一统一的训练策略充分利用了互联网图像定位数据集合成数据集之间的协同效应,并类似于在大型语言模型中被广泛研究且被证明能有效处理高度复杂任务的思维链(Chain-of-Thought)推理机制 [73]

1.3.3 VLM 与动作专家的联合训练

在每个 batch 中,作者从互联网数据集(GRIT [74])和合成动作数据集中随机采样

前者仅用于以自回归方式监督 VLM 的边界框预测后者则同时监督边界框、抓取姿态以及基于 flow-matching 的动作预测

VLM 的损失函数形式上定义为:

其中,分别是边界框与抓取位姿两类 token 序列的长度,是各自序列中位置处的 token,则表示输入的图像和文本

动作专家通过对分块后的末端执行器增量动作(end-effector delta actions)施加 flow matching 损失进行监督学习:

其中是流匹配的时间步,是在时刻加噪的动作主干,是模型预测的流匹配向量场,是真实向量场

作者宣称,他们通过实验证明,将简单相加作为整体损失可以带来良好的性能

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1121918.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CCS安装教程核心要点:高效完成调试工具链设置

如何一步到位搞定CCS调试环境?——TI嵌入式开发者的实战安装指南 你有没有遇到过这样的场景: 新项目刚启动,板子焊好了、电源正常、JTAG线也接上了,结果一打开Code Composer Studio(简称CCS),…

Ueli:终极跨平台快捷启动器,让你的工作效率飙升 [特殊字符]

Ueli:终极跨平台快捷启动器,让你的工作效率飙升 🚀 【免费下载链接】ueli Keystroke launcher for Windows and macOS 项目地址: https://gitcode.com/gh_mirrors/ue/ueli 在数字化工作环境中,时间就是生产力。你是否厌倦了…

Qwen3Guard-Gen-8B能否检测AI生成的传销洗脑话术?

Qwen3Guard-Gen-8B能否检测AI生成的传销洗脑话术? 在社交平台内容审核日益复杂的今天,一个看似普通的推广文案——“邀请三位朋友即可解锁高回报收益”——可能正悄然编织一张心理操控的网。这类文本不带脏字、无明显违规词,却通过情绪引导和…

字符型显示控制中LCD1602的初始化流程手把手教程

从“黑屏”到显示:手把手教你搞定LCD1602的初始化流程你有没有遇到过这样的情况?接好线、烧录程序,通电后LCD1602背光亮了,但屏幕一片漆黑——一个字符都不显示;或者满屏都是方块、乱码,像是被“魔改”过的…

STM32 CubeMX安装后打不开?一文说清解决方案

STM32 CubeMX打不开?别急,90%的问题都出在这儿! 你是不是也遇到过这种情况:兴冲冲地从ST官网下载了STM32 CubeMX,解压安装后双击图标——结果 毫无反应 ?或者弹出一个黑窗口“啪”一下又消失了&#xff…

Qwen3Guard-Gen-8B是否支持GraphQL查询接口?

Qwen3Guard-Gen-8B 是否支持 GraphQL 查询接口? 在构建现代内容安全系统时,开发者越来越关注审核引擎的集成灵活性与协议兼容性。尤其是随着前端架构向声明式数据获取演进,GraphQL 作为主流的数据查询语言,已成为许多中后台系统、…

Keil生成Bin文件入门全攻略:系统学习路径

Keil生成Bin文件实战指南:从入门到工程落地在嵌入式开发的世界里,写完代码只是第一步。真正让程序“活”起来的,是把它变成一个能烧进芯片、跑在设备上的固件镜像——而这个关键一步,往往就是Keil生成bin文件。你可能已经用Keil调…

如何用Qwen3Guard-Gen-8B构建智能对话系统的实时安全防线?

如何用 Qwen3Guard-Gen-8B 构建智能对话系统的实时安全防线? 在如今大模型驱动的智能对话系统中,用户的一句提问可能瞬间触发一场合规危机。比如,“怎么逃税最安全?”这样的问题,如果主模型直接作答,哪怕只…

STM32CubeMX生成初始化代码的核心要点解析

用对工具,少走弯路:STM32CubeMX 初始化代码生成的实战心法你有没有过这样的经历?刚拿到一块新板子,兴冲冲打开 Keil 或 IAR,准备写点“点亮LED”的入门代码,结果卡在第一步——时钟怎么配?GPIO …

Qwen3Guard-Gen-8B支持跨文化语境下的敏感内容识别

Qwen3Guard-Gen-8B:如何让AI安全审核真正“听懂”跨文化语境 在一场面向全球用户的直播互动中,一位中东用户用阿拉伯语提问:“你支持自由吗?”系统生成的回复是:“当然,言论自由是基本权利。”看似无害的回…

Qwen3Guard-Gen-8B能否检测AI生成的交通违章诱导内容?

Qwen3Guard-Gen-8B能否检测AI生成的交通违章诱导内容? 在智能语音助手开始指导司机“如何避开电子眼抓拍”的今天,内容安全的边界早已不再局限于低俗或虚假信息。更隐蔽、更具危害性的风险正在浮现——由大模型生成的、披着“生活技巧”外衣的违法诱导内…

超详细版驱动程序学习路径图(适合初学者)

驱动开发从零到实战:一条清晰、可落地的学习路径(适合初学者)你是不是也曾面对“驱动程序”四个字感到无从下手?想深入操作系统底层,却被内核、设备树、中断这些术语绕晕?写过几行字符设备代码,…

SpringBoot+Vue 蜗牛兼职网设计与实现平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着互联网技术的快速发展,线上兼职平台逐渐成为大学生和社会求职者获取灵活就业机会的重要渠道。传统的兼职信息获取方式存在信息不对称、效率低下等问题,而线上平台能够有效整合资源,提高匹配效率。蜗牛兼职网的设计与实现旨在解决这一…

开源推荐:Qwen3Guard-Gen-8B助力大模型内容安全治理(附GitHub镜像下载)

Qwen3Guard-Gen-8B:大模型内容安全的“语义守门人” 在生成式AI席卷各行各业的今天,一个隐忧正悄然浮现:当大语言模型(LLM)以惊人的创造力撰写文案、回答问题甚至参与决策时,它们是否会不经意间输出违法信…

Qwen3Guard-Gen-8B与Nginx反向代理的高可用架构设计

Qwen3Guard-Gen-8B与Nginx反向代理的高可用架构设计 在内容生成模型日益普及的今天,一个看似简单的对话请求背后,可能隐藏着语义复杂、意图模糊甚至具有文化敏感性的表达。当用户输入“你能帮我做点违法但不被发现的事吗?”时,系统…

如何快速掌握Osquery:构建企业级端点安全监控系统的完整指南

如何快速掌握Osquery:构建企业级端点安全监控系统的完整指南 【免费下载链接】osquery osquery/osquery: Osquery 是由Facebook开发的一个跨平台的SQL查询引擎,用于操作系统数据的查询和分析。它将操作系统视为一个数据库,使得安全审计、系统…

Qwen3Guard-Gen-8B模型支持Prometheus监控指标导出

Qwen3Guard-Gen-8B 模型集成 Prometheus:构建可观测的生成式安全系统 在当今大模型广泛应用的背景下,内容安全已不再仅仅是“有没有违规词”的简单判断。从社交媒体到智能客服,从生成式创作平台到企业级AI助手,每一次文本输出都可…

DMA错误检测与恢复机制:实战案例硬件分析

DMA错误检测与恢复实战:从硬件异常到系统自愈你有没有遇到过这样的场景?系统运行得好好的,突然音频断了、数据流中断,或者干脆死机重启。查日志没线索,调试器一接上又不复现——最后发现,罪魁祸首竟是DMA在…

使用C#调用Qwen3Guard-Gen-8B REST API的完整示例

使用C#调用Qwen3Guard-Gen-8B REST API的完整示例 在当今AIGC(生成式人工智能)迅猛发展的背景下,内容安全问题正以前所未有的速度浮出水面。无论是社交平台上的用户发言、客服机器人回复,还是AI创作的文本输出,稍有不慎…

mall-admin-web电商后台管理系统:零基础快速搭建专业级运营平台

mall-admin-web电商后台管理系统:零基础快速搭建专业级运营平台 【免费下载链接】mall-admin-web mall-admin-web是一个电商后台管理系统的前端项目,基于VueElement实现。 主要包括商品管理、订单管理、会员管理、促销管理、运营管理、内容管理、统计报表…