复现 MODEST 机器人抓取透明物体 单目 ICRA 2025

MODEST 单目透明物体抓取算法,来自ICRA 2025,本文分享它的复现过程。

输入单个视角的RGB图像,模型需要同时处理深度和分割任务,输出透明物体的分割结果和场景深度预测。

论文地址:Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion

代码地址:https://github.com/D-Robotics-AI-Lab/MODEST

将算法迁移到真实机器人平台,开展了透明物体抓取实验。实验平台主要由UR机械臂和深度相机组成。

在借助MODEST方法对透明物体进行分割和深度预测,生成点云数据作为输入,进而采用GraspNet生成抓取位姿。

1、创建Conda环境

使用conda创建一个虚拟环境,名字为modest,指定使用python3.8

然后进入modest环境

conda create -n modest python=3.8
conda activate modest

2、安装torch和CUDA

需要安装torch==1.10.1+cu111,执行下面命令:

pip install torch==1.10.1+cu111 torchvision==0.11.2+cu111 torchaudio==0.10.1 -f https://download.pytorch.org/whl/cu111/torch_stable.html

然后安装其他依赖

sudo apt-get install openexr libopenexr-dev

3、安装依赖库requirements.txt

下载MODEST代码到本地,然后解压

打开requirements.txt,注释torch==1.10.1+cu111、torchvision==0.11.2+cu111,因为上面安装了

 

然后执行命令,安装依赖库

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4、准备数据集ClearPose 

ClearPose 数据集是使用 RealSense L515 摄像头在室内环境中捕获的,捕获了 63 个透明物体。

它包含 RGB、原始深度、地面真实深度、地面真实表面法线图像以及所有物体实例6D位姿。

代码地址:https://github.com/opipari/ClearPose

下载地址:点击下载clearpose

ClearPose 被分成 9 个集合,其中 Set1 只包含化学透明物体,Set2-7 只包含家居物品,Set8-9 还包含其他对抗因素。

文件夹结构如下:

<dataset_path>
|-- set1|-- scene1|-- metadata.mat            # |-- 000000-color.png        # RGB image|-- 000000-depth.png        # Raw depth image|-- 000000-depth_true.png   # Ground truth depth image|-- 000000-label.png        #|-- 000000-normal_true.png  #...
|-- model|-- <object1>|-- <object1>.obj|-- <object2>|-- <object2>.obj...

示例数据:

5、下载模型权重

 Syn-TODD 数据集上预先训练的模型权重:https://drive.google.com/file/d/1haxiir4PdBNE9Zr1AA4D9bVJ4KCzqa8v/view

真实世界数据集 ClearPose 的模型权重:https://drive.google.com/file/d/1798AE_u6KrMV6mpUGBxz_jaLrg_21A39/view

然后创建文件夹ckpt,放到里面:

6、进行推理

首先配置文件:config/config.json,指定预训练权重ISGNet_clearpose.p

使用CPU运行,"device":"cpu";如果使用GPU,"device":"cuda"

 

然后在推理代码inference.py中,需要修改图片路径,比如: 

image_path = "./datasets/clearpose_downsample_100/set1/scene1/000000-color.png" 

推理代码如下

import json
from models.Trainer import Trainer
from utils.visualize import *image_path = "./datasets/clearpose_downsample_100/set1/scene1/000000-color.png"################ load the config file ##################
with open('config/config.json', 'r') as f:config = json.load(f)############### load the trainer ###############
trainer = Trainer(config)############### start inference ##############
trainer.inference(image_path)

执行代码:

 

运行结果,在results目录保存了

原图是这样的

模型预测的深度图:

模型预测的分割效果:

MODEST对透明物体进行分割和深度预测,生成点云数据作为输入,进而采用GraspNet生成抓取位姿。

分享完成~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71880.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新手学习爬虫的案例

首先你的电脑上肯定已经安装了python,没安装的去官网安装,我使用的是Pycharm作为操作的IDE 环境准备 安装必要的库 爬虫需要用到requests和beautifulsoup4 使用命令行或者终端运行下面的命令 pip install requests beautifulsoup4 -i https://mirrors.aliyun.com/pypi/sim…

Octave3D 关卡设计插件

课程参考链接 这位大佬有在视频合集中有详细的讲解&#xff0c;个人体验过&#xff0c;感觉功能很强大 https://www.bilibili.com/video/BV1Kq4y1C72P/?share_sourcecopy_web&vd_source0a41d8122353e3e841ae0a39908c2181 Prefab资源管理 第一步 在场景中创建一个空物体…

【Transformer优化】Transformer的局限在哪?

自2017年Transformer横空出世以来&#xff0c;它几乎重写了自然语言处理的规则。但当我们在享受其惊人的并行计算能力和表征能力时&#xff0c;是否真正理解了它的局限性&#xff1f;本文将深入探讨在复杂度之外被忽视的五大核心缺陷&#xff0c;并试图在数学维度揭示其本质。 …

SpringBoot(一)--搭建架构5种方法

目录 一、⭐Idea从spring官网下载打开 2021版本idea 1.打开创建项目 2.修改pom.xml文件里的版本号 2017版本idea 二、从spring官网下载再用idea打开 三、Idea从阿里云的官网下载打开 ​编辑 四、Maven项目改造成springboot项目 五、从阿里云官网下载再用idea打开 Spri…

Python爬虫实战:一键采集电商数据,掌握市场动态!

电商数据分析是个香饽饽&#xff0c;可市面上的数据采集工具要不贵得吓人&#xff0c;要不就是各种广告弹窗。干脆自己动手写个爬虫&#xff0c;想抓啥抓啥&#xff0c;还能学点技术。今天咱聊聊怎么用Python写个简单的电商数据爬虫。 打好基础&#xff1a;搞定请求头 别看爬虫…

乐鑫打造全球首款 PSA Certified Level 2 RISC-V 芯片

乐鑫科技 (688018.SH) 荣幸宣布 ESP32-C6 于 2025 年 2 月 20 日获得 PSA Certified Level 2 认证。这一重要突破使 ESP32-C6 成为全球首款基于 RISC-V 架构获此认证的芯片&#xff0c;体现了乐鑫致力于为全球客户提供安全可靠、性能卓越的物联网解决方案的坚定承诺。 PSA 安全…

图像滑块对比功能的开发记录

背景介绍 最近&#xff0c;公司需要开发一款在线图像压缩工具&#xff0c;其中的一个关键功能是让用户直观地比较压缩前后的图像效果。因此&#xff0c;我们设计了一个对比组件&#xff0c;它允许用户通过拖动滑块&#xff0c;动态调整两张图像的显示区域&#xff0c;从而清晰…

tcc编译器教程2 编译lua解释器

本文主要介绍了使用tcc编译器编译lua解释器源码。 1 介绍 lua是一门编程语言,开源且源码很容易编译,我平时用来测试C语言编程环境时经常使用。一般能编译成功就说明编程环境设置正常。下面用之前设置好的tcc编程环境进行测试。 2 获取源码 我一般有保留多个版本的lua源码进…

Unity DOTS从入门到精通之 自定义Authoring类

文章目录 前言安装 DOTS 包什么是Authoring1. 实体组件2. Authoring类 前言 DOTS&#xff08;面向数据的技术堆栈&#xff09;是一套由 Unity 提供支持的技术&#xff0c;用于提供高性能游戏开发解决方案&#xff0c;特别适合需要处理大量数据的游戏&#xff0c;例如大型开放世…

comctl32!ListView_OnSetItem函数分析LISTSUBITEM结构中的image表示图标位置

第一部分&#xff1a; BOOL ListView_SetSubItem(LV* plv, const LV_ITEM* plvi) { LISTSUBITEM lsi; BOOL fChanged FALSE; int i; int idpa; HDPA hdpa; if (plvi->mask & ~(LVIF_DI_SETITEM | LVIF_TEXT | LVIF_IMAGE | LVIF_STATE)) { …

【算法】大数据查重

大数据查重 哈希表 找出第一个出现重复的数字 || 找所有重复出现的数字 #include <iostream> #include <vector> #include <unordered_map> #include <unordered_set> #include <stdlib.h> #include <time.h> #include <string> …

模型微调-基于LLaMA-Factory进行微调的一个简单案例

模型微调-基于LLaMA-Factory进行微调的一个简单案例 1. 租用云计算资源2. 拉取 LLaMa-Factory3. 安装依赖环境4. 启动 LLaMa-Factory 界面5. 从 Huggingface 下载模型6. 模型验证7. 模型微调 1. 租用云计算资源 以下示例基于 AutoDL 云计算资源。 在云计算平台选择可用的云计…

【单片机】ARM 处理器简介

ARM 公司简介 ARM&#xff08;Advanced RISC Machine&#xff09; 是英国 ARM 公司&#xff08;原 Acorn RISC Machine&#xff09; 开发的一种精简指令集&#xff08;RISC&#xff09; 处理器架构。ARM 处理器因其低功耗、高性能、广泛适用性&#xff0c;成为嵌入式系统、移动…

springboot的实体类字段校验的分组校验

分组校验&#xff08;Group Validation&#xff09;允许在不同的场景下对同一个实体类应用不同的校验规则。例如&#xff0c;在新增数据和更新数据时&#xff0c;可能需要对某些字段的校验规则进行调整。以下是分组校验的具体实现步骤&#xff1a; 一、定义分组接口 创建空的标…

vue3,Element Plus中隐藏树el-tree滚动条

el-tree&#xff0c;节点过多&#xff0c;默认会出现垂直滚动条&#xff0c;显得不美观 可以使用隐藏组件 el-scrollbar 将 el-tree 包裹&#xff0c;就可以隐藏垂直滚动条 <el-scrollbar> <el-tree> ... </el-tree> </el-scrollbar> /* 滚动条禁用鼠…

mysql练习

创建数据库db_ck&#xff0c;再创建表t_hero&#xff0c;将四大名著中的主要人物都插入这个表中&#xff0c;将实现过程中sql提交上上来 1、创建数据库db_ck mysql> create database db_ck; 2、创建表t_hero mysql> use db_ck Database changed mysql> create table …

svn删除所有隐藏.svn文件,文件夹脱离svn控制

新建一个文件&#xff0c;取名remove-svn-folders.reg&#xff0c;输入如下内容&#xff1a; Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\DeleteSVN] "Delete SVN Folders" [HKEY_LOCAL_MACHINE\SOFTWARE\Class…

文心一言:中国大模型时代的破局者与探路者

2023年&#xff0c;生成式人工智能&#xff08;AIGC&#xff09;的浪潮席卷全球&#xff0c;而百度推出的“文心一言”&#xff08;ERNIE Bot&#xff09;作为中国AI领域的代表性产品&#xff0c;迅速成为行业焦点。这款基于百度自主研发的“文心大模型”打造的对话式AI工具&am…

Ubuntu 安装docker docker-compose

Docker 通过提供轻量级、可移植且高效的解决方案&#xff0c;简化了软件开发和部署。“docker build”命令是 Docker 镜像创建过程的核心。本文将探讨 Docker 构建命令、用法以及 Docker 构建的优化。 Docker 构建有什么作用&#xff1f; Docker build 是一个命令行界面 CLI命…

Unity开发——CanvasGroup组件介绍和应用

CanvasGroup是Unity中用于控制UI的透明度、交互性和渲染顺序的组件。 一、常用属性的解释 1、alpha&#xff1a;控制UI的透明度 类型&#xff1a;float&#xff0c;0.0 ~1.0&#xff0c; 其中 0.0 完全透明&#xff0c;1.0 完全不透明。 通过调整alpha值可以实现UI的淡入淡…