论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors

RoboGround 论文
一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。

相比于 GR-1,通过分割算法,提出了局部 Mask,以及相应的坐标,增强了空间理解。

现有的语言条件下的仿真数据集常常存在物体和环境多样性不足,或者缺乏广泛的指令和复杂场景,基于 RoboCasa 引入一种自动化数据生成流程。
在这里插入图片描述

数据集

在 Objaverse 中借助 GPT-4o,筛选并识别出1)适合桌面使用的物品;2)与厨房相关的物品;3)排除多件物品组合;再经过人工审核,挑选出 1017 个高质量桌面操作物体。
原有的语言条件数据集:指令格式固定——模型只需要学习指令到任务的映射,无需深入理解指令,导致泛化能力差。

  • Appearance——从 4 个视角(正面、背面、左侧和右侧)渲染每个物体,由此组合成一张综合图像,再用 GPT-4 提取特征(颜色、材质、形状等),随机选取一个作为物体特征并过滤掉场景中包含该特征的其他物体。然后通过 CLIP 选择干扰物。(选取一组代表物,通过他们学习别的特征混合的物体)
  • Spatial——指定物体以及位置坐标的指令。
  • Commonsense——使用 GPT-4 为每个任务提供机器人的视角图像(左侧、右侧和手部视角),以及目标物体及其预期位置的详细信息。(传统:把红色的杯子从桌子上拿起来;常识:把杯子从桌子上拿起来)

在这里插入图片描述

定位视觉语言模型

  • y t = L ( f v ( C L I P ( x v ) ) , x t ) y_t=L(f_v(CLIP(x_v)),x_t) yt=L(fv(CLIP(xv)),xt) 模型通过一个提示来感知图像,提示的格式为:“The <IMAGE> provides an overview of the picture”。其中 <IMAGE> 标记被替换为投影后的视觉特征,表示为256个标记的序列。
  • 在定位头中,采用预训练的 SAM 编码器,解码器类似 SAM 解码器架构。在 LLM 的词汇表中引入 <SEG> 提取与定位相关特征。由此生成二进制掩码: M = D ( f s ( F s e g , E ( x v ) ) ) M=D(f_s(F_{seg},E(x_v))) M=D(fs(Fseg,E(xv)))
    其中 f v , f s f_v,f_s fv,fs 为投影器, F s e g F_{seg} Fseg<SEG> 标记对应的最后一层嵌入。

采用 GR-1 架构。

掩码为机器人的策略提供了有用的空间引导。与其要求明确地将语义描述定位到具体物体上,策略网络可以专注于利用这种结构化信息来改进物体定位和动作执行。
视觉特征 Z v ∈ R 197 × D v Z_v \in \mathbb{R}^{197×D_v} ZvR197×Dv Z v = V i T M A E ( L i n e a r ( C o n c a t ( x v , M o , M p ) ) ) Z_v=ViTMAE(Linear(Concat(x_v,M_o,M_p))) Zv=ViTMAE(Linear(Concat(xv,Mo,Mp))) M o M_o Mo 为目标物体掩码, M p M_p Mp 为放置区域掩码。同时 Z v Z_v Zv 还包含 CLS 特征 Z C L S v ∈ R 1 × D v Z_{CLS}^v\in R^{1×D_v} ZCLSvR1×Dv ,一组局部 patch Z v P ∈ R 196 × D Z_v^P \in R^{196×D} ZvPR196×D
语言输入通过 CLIP 编码为 Z t Z_t Zt,机器人状态 x t x_t xt 通过 MLP 投影为 Z s Z_s Zs,以及一个可学习的动作标记 Z a c t Z_{act} Zact
在 GR-1 中,Perceiver 作为一个标记重组器,通过在一组可学习的查询标记和初始视觉特征之间进行迭代注意力层来减少从初始视觉特征中派生的特征数量。本文将注意力引导至掩码所在的区域,引入两组额外标记: Q o Q_o Qo 用于目标物体, Q p Q_p Qp 用于放置物体,在每个注意力层中,他们与 Z v P Z_v^P ZvP 相互作用,注意力通过掩码 M o M_o Mo M p M_p Mp 引导。

实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/78700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

K8S的使用(部署pod\service)+安装kubesphere图形化界面使用和操作

master节点中通过命令部署一个tomcat 查看tomcat被部署到哪个节点上 在节点3中进行查看 在节点3中进行停止容器&#xff0c;K8S会重新拉起一个服务 如果直接停用节点3&#xff08;模拟服务器宕机&#xff09;&#xff0c;则K8S会重新在节点2中拉起一个服务 暴露tomcat访…

纷析云开源财务软件:重新定义企业财务自主权

痛点直击&#xff1a;传统财务管理的三大桎梏 “黑盒”困局 闭源商业软件代码不可见&#xff0c;企业无法自主调整功能&#xff0c;政策变化或业务升级依赖厂商排期&#xff0c;响应滞后。 数据托管于第三方平台&#xff0c;存在泄露风险&#xff0c;合规审计被动受限。 成本…

mybatis 的多表查询

文章目录 多表查询一对一一对多 多表查询 一对一 开启代码片段编写 专注于 SQL的 编写 JDBC 的写法&#xff0c;注重于 SQL mybatis 在 一对一查询时&#xff0c;核心在于 建立每个表对应的实体类主键根据 主键 id 进行查询&#xff0c;副标根据 设定外键进行查询 在 SQL编写…

Scrapy爬虫实战:如何用Rules实现高效数据采集

Scrapy是一个强大的Python爬虫框架&#xff0c;而其中的Rules类则为爬虫提供了更高级的控制方式。本文将详细介绍如何在Scrapy中使用Rules&#xff0c;以及各个参数的具体作用&#xff0c;并结合实际场景说明Rules的必要性。 为什么需要Rules&#xff1f; 在Web爬取过程中&…

ActiveMQ 性能优化与网络配置实战(一)

一、引言 在当今分布式系统和微服务架构盛行的时代&#xff0c;消息中间件作为实现系统间异步通信、解耦和削峰填谷的关键组件&#xff0c;其重要性不言而喻。ActiveMQ 作为一款广泛应用的开源消息中间件&#xff0c;凭借其对多种消息协议的支持、灵活的部署方式以及丰富的功能…

免费视频压缩软件

一、本地软件&#xff08;支持离线使用&#xff09; 1. HandBrake 平台&#xff1a;Windows / macOS / Linux 特点&#xff1a;开源免费&#xff0c;支持多种格式转换&#xff0c;提供丰富的预设选项&#xff08;如“Fast 1080p”快速压缩&#xff09;&#xff0c;可自定义分…

消除AttributeError: module ‘ttsfrd‘ has no attribute ‘TtsFrontendEngine‘报错输出的记录

#工作记录 尝试消除 消除“模块ttsfrd没有属性ttsfrontendengine”的错误的记录 报错摘录&#xff1a; Traceback (most recent call last): File "F:\PythonProjects\CosyVoice\webui.py", line 188, in <module> cosyvoice CosyVoice(args.model_di…

Acrel-EIoT 能源物联网云平台在能耗监测系统中的创新设计

摘要 随着能源管理的重要性日益凸显&#xff0c;能耗监测系统成为实现能源高效利用的关键手段。本文详细介绍了基于安科瑞Acrel-EIoT能源物联网云平台的能耗监测系统的设计架构与应用实践。该平台采用分层分布式结构&#xff0c;涵盖感知层、网络层、平台层和应用层&#xff0…

计算机网络-同等学力计算机综合真题及答案

计算机网络-同等学力计算机综合真题及答案 &#xff08;2003-2024&#xff09; 2003 年网络 第二部分 计算机网络&#xff08;共 30 分&#xff09; &#xff08;因大纲变动因此 2004 年真题仅附真题&#xff0c;不作解析。&#xff09; 一、填空题&#xff08;共 10 分&#…

PyTorch常用命令详解:助力深度学习开发

&#x1f4cc; 友情提示&#xff1a; 本文内容由银河易创AI&#xff08;https://ai.eaigx.com&#xff09;创作平台的gpt-4-turbo模型生成&#xff0c;旨在提供技术参考与灵感启发。文中观点或代码示例需结合实际情况验证&#xff0c;建议读者通过官方文档或实践进一步确认其准…

深度学习:梯度下降法的数学原理

梯度下降法——是一种最优化算法,用于找到函数的局部极小值或全局最小值。它基于函数的梯度(或偏导数)信息来更新参数,目标是通过逐渐调整参数值来最小化目标函数的值。在机器学习算法中,梯度下降是最常采用的方法之一,尤其是在深度学习模型中,BP反向传播方法的核心就是…

刷leetcodehot100返航版--哈希表5/5、5/6

回顾一下之前做的哈希&#xff0c;貌似只有用到 unordered_set&#xff1a;存储无序元素unordered_map&#xff1a;存储无序键值对 代码随想录 常用代码模板2——数据结构 - AcWing C知识回顾-CSDN博客 1.两数之和5/5【30min】 1. 两数之和 - 力扣&#xff08;LeetCode&am…

openwrt 使用quilt 打补丁(patch)

1,引入 本文简单解释如何在OpenWRT下通过quilt命令打补丁--patch&#xff0c;也可查看openwrt官网提供的文档 2&#xff0c;以下代码通过编译net-snmp介绍 ① 执行编译命令之后&#xff0c;进入build_dir的net-snmp-5.9.1目录下&#xff0c;改目录即为snmp最终编译的目录了 /…

【开发工具】Window安装WSL及配置Vscode获得Linux开发环境

笔者面试时需要本地IDE手撕代码并测试&#xff0c;但是windows开发环境用不习惯&#xff0c;Min64和json配置也比较麻烦&#xff0c;因此采用WSLvscode的方式快速配置Linux开发环境 WSL安装 直接在微软商店搜索WSL即可 系统设置 开始菜单搜索启用或关闭 Windows 功能&…

【C语言】初阶数据结构相关习题(一)

&#x1f386;个人主页&#xff1a;夜晚中的人海 今日语录&#xff1a;人的生命似洪水在奔流&#xff0c;不遇着岛屿、暗礁&#xff0c;难以激起美丽的浪花。——奥斯特洛夫斯基 文章目录 ⭐一、判定是否互为字符重排&#x1f389;二、 回文排列&#x1f680;三、字符串压缩&am…

MySQL----数据库的操作

1. 查看数据库 语法&#xff1a;show databases; 示例展示&#xff1a; 2. 创建库 语法&#xff1a; CREATE DATABASE [IF NOT EXISTS] database_name[CHARACTER SET charset_name][COLLATE collation_name]; 注意&#xff1a;[] 为可选项 {} 为必选项 database_name 为数据…

Dagger中编译import报找不到ProvideClientFactory,initialize中ProvideClientFactory爆红

解决方案&#xff1a;将对应Module移到主模块&#xff0c;可能是依赖循环使用导致或者是模块之间无法访问及通信导致 为了重现问题&#xff0c;我还远了此操作

Nacos源码—4.Nacos集群高可用分析四

大纲 6.CAP原则与Raft协议 7.Nacos实现的Raft协议是如何写入数据的 8.Nacos实现的Raft协议是如何选举Leader节点的 9.Nacos实现的Raft协议是如何同步数据的 10.Nacos如何实现Raft协议的简版总结 8.Nacos实现的Raft协议是如何选举Leader节点的 (1)初始化RaftCore实例时会开…

拟南芥T2T基因组-文献精读127

A near-complete assembly of an Arabidopsis thaliana genome 拟南芥基因组的近乎完整组装 拟南芥&#xff08;Arabidopsis thaliana&#xff09;基因组序列作为广泛应用的模式物种&#xff0c;为植物分子生物学研究提供了巨大的推动力。在基因组序列首次发布后的20多年&…

一个关于fsaverage bem文件的说明

MNE文档&#xff1a;基于模板 MRI 的 EEG 前向算子 Head model and forward computation 在了解了脑图谱发展的过程之后&#xff0c;对脑的模版有了更深的认识&#xff0c;所以&#xff0c;对于之前使用的正向的溯源文件&#xff0c;进行一下解析&#xff0c;查看包含的信息&a…