语言-地图slam ConceptGraphs: Open-vocabulary 3D scene graphs for perception and planning, - MKT

news/2025/10/29 5:46:18/文章来源:https://www.cnblogs.com/gooutlook/p/19173067

ConceptGraphs: Open-vocabulary 3D scene graphs for perception and planning,

 

好的,​​ConceptGraphs​​ 这篇论文与之前讨论的 HOV-SG 思想一脉相承,但它在具体实现方法和侧重点上有所不同,可以看作是在同一前沿方向上的一种具体、可扩展的实现方案。其核心思想是:​​一种无需对象检测模型训练、无需文本标注、完全基于开放词汇模型(如 CLIP)的“自下而上”的方法,来构建开放词汇的3D场景图,并直接用于机器人感知与规划。​

 

一、核心思想:一种“自下而上”的开放词汇建图方法

与一些需要预训练物体检测器或大量人工标注的方法不同,ConceptGraphs 的核心创新在于其极其简单和通用的构建流程。它的目标不是识别出“椅子”、“桌子”这类预定义的物体,而是​​让3D地图中的任何一点都能用任意语言概念(开放词汇)来查询​​。

关键区别:对象识别 vs. 概念查询

  • ​​传统对象识别方法​​:“这是一个椅子吗?”(需要预先知道“椅子”这个类别并训练过)。
  • ​​ConceptGraphs 的方法​​:“地图中哪个区域最符合‘我用来放杯子的东西’这个描述?”(无需预训练,直接使用语言模型的理解能力)。

 

二、工作流程:如何构建ConceptGraph?

其流程非常清晰,分为三个核心步骤,下图展示了从原始数据到可用于规划的概念图的完整过程:

image

 

步骤一:3D重建

  • 使用现成的SLAM系统(如VDB-Fusion)处理RGB-D图像流,生成一个​​稠密3D点云地图​​。每个点不仅有3D坐标和颜色,还有一个关键属性:​​它出现在哪些原始图像帧中​​。

步骤二:概念提取——核心创新

这是最关键的一步,实现了“开放词汇”能力。

  1. ​​点与图像的关联​​:对于点云中的每一个3D点,系统可以找到所有观察到它的2D图像区域(patches)。
  2. ​​CLIP特征聚合​​:将这些2D图像区域输入到预训练的CLIP模型的​​图像编码器​​中,为每个图像区域提取一个高维特征向量。
  3. 然后,将所有与此3D点关联的图像区域特征进行​​聚合​​(例如,取平均),得到一个单一的、强大的CLIP特征向量,并赋予这个3D点。
  4. ​​结果​​:至此,地图中的​​每一个3D点都携带了一个语义嵌入向量​​。这个向量位于CLIP模型创造的语义空间中,与文本嵌入向量可以直接比较。

步骤三:概念图构建

  1. ​​节点生成​​:使用几何分割算法(如欧几里得聚类)将点云分组为不同的物体实例。每个实例(即一组点)的CLIP特征是其所有点特征的聚合。这样,每个实例成为一个​​概念节点​​,拥有几何属性和语义特征。
  2. ​​关系生成​​:计算节点之间的空间关系(如“在上面”、“在旁边”、“包含”),形成图的边。
  3. ​​最终产出​​:一个​​开放词汇的3D场景图​​。图中的每个节点都可以用任意语言概念通过计算相似度来查询。

 

三、在机器人感知与规划中的应用

当机器人收到自然语言指令后,它利用ConceptGraph进行推理和规划的过程可以清晰地表示为以下流程:

 

 

 

 

 

image

 好的,​​ConceptGraphs​​ 这篇论文与之前讨论的 HOV-SG 思想一脉相承,但它在具体实现方法和侧重点上有所不同,可以看作是在同一前沿方向上的一种具体、可扩展的实现方案。其核心思想是:​​一种无需对象检测模型训练、无需文本标注、完全基于开放词汇模型(如 CLIP)的“自下而上”的方法,来构建开放词汇的3D场景图,并直接用于机器人感知与规划。​​


一、核心思想:一种“自下而上”的开放词汇建图方法

与一些需要预训练物体检测器或大量人工标注的方法不同,ConceptGraphs 的核心创新在于其极其简单和通用的构建流程。它的目标不是识别出“椅子”、“桌子”这类预定义的物体,而是​​让3D地图中的任何一点都能用任意语言概念(开放词汇)来查询​​。

关键区别:对象识别 vs. 概念查询

  • ​​传统对象识别方法​​:“这是一个椅子吗?”(需要预先知道“椅子”这个类别并训练过)。
  • ​​ConceptGraphs 的方法​​:“地图中哪个区域最符合‘我用来放杯子的东西’这个描述?”(无需预训练,直接使用语言模型的理解能力)。

二、工作流程:如何构建ConceptGraph?

其流程非常清晰,分为三个核心步骤,下图展示了从原始数据到可用于规划的概念图的完整过程:

 
flowchart TD A[“原始数据<br>RGB-D图像流”] --> B[“步骤1:3D重建<br>生成点云地图”] B --> C[“步骤2:概念提取<br>为每个点聚合CLIP特征”] C --> D[“步骤3:概念图构建<br>生成概念节点与关系”] D --> E[“结果:ConceptGraph<br>包含开放词汇节点和空间关系的图”] E --> F[“机器人规划<br>将自然语言指令接地到图上执行”]
 
 
 

步骤一:3D重建

  • 使用现成的SLAM系统(如VDB-Fusion)处理RGB-D图像流,生成一个​​稠密3D点云地图​​。每个点不仅有3D坐标和颜色,还有一个关键属性:​​它出现在哪些原始图像帧中​​。

步骤二:概念提取——核心创新

这是最关键的一步,实现了“开放词汇”能力。

  1. ​​点与图像的关联​​:对于点云中的每一个3D点,系统可以找到所有观察到它的2D图像区域(patches)。
  2. ​​CLIP特征聚合​​:将这些2D图像区域输入到预训练的CLIP模型的​​图像编码器​​中,为每个图像区域提取一个高维特征向量。然后,将所有与此3D点关联的图像区域特征进行​​聚合​​(例如,取平均),得到一个单一的、强大的CLIP特征向量,并赋予这个3D点。
  3. ​​结果​​:至此,地图中的​​每一个3D点都携带了一个语义嵌入向量​​。这个向量位于CLIP模型创造的语义空间中,与文本嵌入向量可以直接比较。

步骤三:概念图构建

  1. ​​节点生成​​:使用几何分割算法(如欧几里得聚类)将点云分组为不同的物体实例。每个实例(即一组点)的CLIP特征是其所有点特征的聚合。这样,每个实例成为一个​​概念节点​​,拥有几何属性和语义特征。
  2. ​​关系生成​​:计算节点之间的空间关系(如“在上面”、“在旁边”、“包含”),形成图的边。
  3. ​​最终产出​​:一个​​开放词汇的3D场景图​​。图中的每个节点都可以用任意语言概念通过计算相似度来查询。

三、在机器人感知与规划中的应用

当机器人收到自然语言指令后,它利用ConceptGraph进行推理和规划的过程可以清晰地表示为以下流程:

 
flowchart LR A[“自然语言指令<br>如‘拿取桌上的马克杯’”] --> B[语言接地] B --> C[“查询图数据库<br>计算概念相似度”] C --> D{“相似度<br>超过阈值?”} D --o|“是” --> E[“找到目标节点<br>(马克杯, 桌子)”] D --x|“否” --> F[“目标不存在”] E --> G[“空间关系推理<br>(马克杯 在 桌子 之上)”] G --> H[“规划路径与动作”] H --> I[“执行任务”]
 
 
 

image

 

  1. ​​语言接地​​:将指令中的关键词(“桌子”、“马克杯”)通过CLIP的​​文本编码器​​转换为文本特征向量。
  2. ​​图数据库查询​​:在ConceptGraph中,将文本特征向量与所有节点的CLIP特征向量进行相似度计算(如余弦相似度)。
  3. ​​目标节点定位​​:找到与“桌子”和“马克杯”最相似的节点。由于图包含空间关系,机器人可以推理出“马克杯”节点在“桌子”节点之上。
  4. ​​规划与执行​​:机器人可规划一条路径,先导航到桌子附近,然后操作机械臂拿取桌上的目标马克杯。

 

四、核心思想总结与价值

​​ConceptGraphs 的核心思想是:摒弃“先识别物体,再构建地图”的传统思路,转而采用一种“先为地图注入通用语义,再按需查询概念”的自下而上、数据驱动的方法。​​

其主要优势在于:

  1. ​​真正的开放词汇​​:不依赖任何预定义的封闭类别列表,可以理解训练数据中未曾出现过的概念,泛化能力极强。
  2. ​​实现简单​​:无需训练复杂的3D物体检测模型,构建流程主要依赖于现成的SLAM和预训练的CLIP模型,非常简洁。
  3. ​​概念稠密​​:每个点都带有语义信息,使得查询不再局限于物体级别,可以指向物体的部件或特定区域。
  4. ​​直接支持规划​​:生成的图结构自然地结合了几何、语义和关系信息,为符号推理和运动规划提供了理想的接口。

​​简而言之,ConceptGraphs 提供了一种务实而强大的路径,将大规模视觉-语言模型的知识“蒸馏”到机器人的空间记忆中,创造出一个机器人和人类都能用自然语言理解和操作的地图。​​ 它和之前讨论的HOV-SG共同代表了当前将具身AI与3D空间理解相结合的最前沿探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/949259.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语义slam Fusion++ - MKT

语义slam Fusion++ 2. Fusion++的核心思想:范式转变 Fusion++彻底改变了游戏规则。它不再将世界看作一个统一的几何空间,而是将其看作由​​背景​​和​​多个独立的物体实例​​组成的集合。 思想一:实例级表示…

点云配准 Deep closest point: Learning representations for point cloud registration, - MKT

点云配准 Deep closest point: Learning representations for point cloud registration,

tryhackme-网络安全基础-命令行- Linux Shells-23

tryhackme-Cyber Security 101-Command Line-Linux Shells 房间地址:https://tryhackme.com/room/linuxshells 这是网络安全入门的基础模块的计算机科学基础知识:Linux Shells,序号 01 表示第一篇文章,当你不知道从…

开发Minecraft Forge模组遇到的问题记录

开发工具:IDEA 2022.2.5 JDK:21.0.7 Forge:60.0.11 这里一定要清楚这些版本号,很多问题都是因为版本不兼容引起的,所以先声明使用工具的版本号,接下来踩坑开始(遇到的坑大概率会按照逻辑的先后顺去说明,而不是…

【ESP32 在线语音】 待写 TTS

链接:https://blog.csdn.net/vor234/article/details/138387195?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522dac311b95071f02fedec5ea5a048fdf6%2522%252C%2522scm%2522%253A%252220140713.130102334…

Fusion++ 语义实例分割​​与​​稠密SLAM重建​​在TSDF子图层面进行了深度融合 - MKT

Fusion++ 语义实例分割​​与​​稠密SLAM重建​​在TSDF子图层面进行了深度融合 3. Fusion++ 的完整工作流程 ​​步骤一:基于RGB-D帧的实例分割(每帧)​​输入每一帧RGB-D图像。 使用2D实例分割网络(如Mask R-C…

tryhackme-网络安全基础-命令行- Windows PowerShell-22

tryhackme-Cyber Security 101-Command Line-Windows PowerShell 房间地址:https://tryhackme.com/room/windowspowershell 这是网络安全入门的基础模块的计算机科学基础知识:Windows PowerShell,序号 01 表示第一篇…

【ESP32 在线语音】音频接收的缓存机制和网络发送机制

首先是初始化 I2S 设备中,可能用到了缓存 //初始化 I2S 设备 INMP441Serial.println("Setup I2S ...");i2s_install();i2s_setpin();esp_err_t err = i2s_start(I2S_PORT_0);其中的 i2s_install() 配置了 …

XCPC英语学习day2

2024ICPC昆明 A. Antivicus 在介绍网络流的时候,几乎还没开始讲,pet chicken指出如何解决这个问题。老师惊呼:我们的禽流感太棒了。 ——Roasted-chicken Htrule进入了流感季。 Hyrule由n个城市组成,由m条有向道路…

2025年PFA隔膜阀厂家权威推荐榜:耐腐蚀高纯流体阀门专业制造商,精选PFA/四氟阀门优质品牌解析

2025年PFA隔膜阀厂家权威推荐榜:耐腐蚀高纯流体阀门专业制造商,精选PFA/四氟阀门优质品牌解析 行业背景与发展现状 在半导体制造、生物医药、精细化工等高技术领域,高纯流体输送系统的可靠性与洁净度直接关系到产品…

2025年PFA隔膜阀厂家权威推荐榜:耐腐蚀高纯流体专用阀门,PTFE/FEP/PFA材质隔膜阀源头企业综合评测

2025年PFA隔膜阀厂家权威推荐榜:耐腐蚀高纯流体专用阀门,PTFE/FEP/PFA材质隔膜阀源头企业综合评测 在半导体制造、生物医药、精细化工等高技术领域,高纯流体输送系统的稳定性和可靠性直接关系到生产质量和工艺安全。…

【ESP32 在线语音】音频接收的缓存机制

首先是初始化 I2S 设备中,可能用到了缓存 //初始化 I2S 设备 INMP441Serial.println("Setup I2S ...");i2s_install();i2s_setpin();esp_err_t err = i2s_start(I2S_PORT_0);其中的 i2s_install() 配置了 …

我在iOS/Swift工程中成功编译了HarfBuzz!

我在iOS/Swift工程中成功编译了HarfBuzz!https://github.com/HusterYP/HarfBuzziOS/tree/main 跨端渲染又进一步!!

Python access mysql and insert data batch by batch

pip install mysql-connector or pip install mysql-connector-python -i https://pypi.tuna.tsinghua.edu.cn/simple/create table t2(id bigint primary key auto_increment,firstname varchar(100) not null defaul…

CodeForces-2153D Not Alone

tag: 结论题,一维线性 DPCodeForces-2153D Not Alone tag: 结论题,一维线性 DP给定一个环形序列 \(b\),长度为 \(m\),每次操作可以将一个数加一或减一。 问最少需要多少次操作,可以使序列 \(b\) 中每一个元素至少…

Codeforces Round 1062 (Div. 4)

A. Square?点击查看代码 #include <bits/stdc++.h>using i64 = long long;void solve() {int a, b, c, d;std::cin >> a >> b >> c >> d;if (a == b && b == c && c =…

一文吃透银行账务打通体系闭环 - 智慧园区

银行体系的复杂性,往往源于“账务、账户、会计、科目”之间的模糊边界。本文将系统拆解这四者的逻辑关系,从业务流、资金流到会计流,构建一套可理解、可复用的认知框架,帮助产品人真正打通银行产品设计的底层闭环。…

uups 逻辑合约也增加了升级函数,那总体不是也费gas吗?

这是一个很好的问题!虽然 UUPS 逻辑合约确实增加了升级函数,但它仍然比透明代理更省 Gas。以下是详细的原因和解释:1. UUPS 的升级函数对 Gas 的影响在 UUPS 模式中,升级逻辑(如 upgradeTo)确实存在于逻辑合约中…