基于自监督三维语义表示学习的视觉语言导航

前言

目前的视觉语言导航存在的问题:

(1)在VLN任务中,大多数当前方法主要利用RGB图像,忽略了环境固有的丰富三维语义数据。许多语义无关的纹理细节不可避免地被引入到训练过程中,导致模型出现过拟合问题,训练后的代理将没有足够的能力适应3D环境感知。

本工作的主要贡献:

(1)提出了一种新的学习和融合框架,为VLN任务引入了三维语义表示;

(2)设计了一个区域查询前置学习任务,以自监督学习的方式帮助从未标记的三维语义重建中学习三维语义表示。


一、模型整体框架

1.1 任务描述

在时间步 t :

(1)图片输入:全景RGB-D图像(在实施过程中会将全景图拆分成12个不同角度的图片);

(2)文本输入:指令;

(3)输出:预测的动作。


1.2 模型介绍

模型的整体框架如图所示:

可以看出,主要由以下部分组成:

(1)3D语义编码器:将RGB语义分割信息和D深度信息结合,得到3D重构结果,将3D重构结果作为输入,利用自监督方法训练此编码器。训练完的编码器输入为RGB-D图像,输出为3D语义特征;

(2)视觉编码器:双尺度图Transformer(DUET)模型,输入为RGB特征和3D语义特征,输出为总的视觉特征;

(3)文本编码器:预训练的BERT,输出为文本特征;

(4)细尺度多模态注意力模块 + 局部动作预测模块:整合对齐局部视觉特征和文本特征,并得到局部预测动作;

(5)粗尺度多模态注意力模块 + 全局动作预测模块:整合对齐全局视觉特征和文本特征,并得到全局预测动作;

(6)动态融合模块:融合局部和全局动作预测,得到最终动作预测结果。


二、难点

2.1 3D语义编码器

2.1.1 3D语义重构

此部分的主要功能是将RGB图像结合深度信息,转化为三维语义表示。主要流程如下:

(1)将特定位置代理的多个二维RGB观测图像输入语义分割器(总共150类)中,以获得二维语义分割;

(2)使用深度观测和相机参数将二维语义分割投影到三维空间中,每个RGB-D观测值都被转换为三维语义点云;

(3)通过组合不同视点的三维点云,我们可以获得局部位置特定的全景语义点云;

(4)通过计算每单位体积中属于特定类别的点云的数量来对三维语义点云进行体素化。假设体素化参数对于X轴和Y轴为0.125 m,对于Z轴为0.25 m。对于代理,相对于中心的最大水平观测范围为±8 m,对于垂直方向为±4 m。因此,基于体素的三维语义重建的维度为150×128×128×32;

(5)使用三维重建的稀疏表示,只记录至少有一个非零语义类别的位置,形成k×4(记录索引和位置)和k×150(记录语义类别)的向量,其中k是具有非零语义类别的位置数量。

如下图所示:

2.1.2 自监督学习方法

此部分的主要功能是训练一个3D语义编码器,将3D重建的稀疏表示(体素化、稀疏化后的3D语义点云)编码成3D语义特征,即使用稀疏卷积网络将输入的3D重建的稀疏表示编码为2048×4×4张量,记为F_{sem}

本工作设计了一个区域查询前置学习任务,其中需要三维视觉编码模型回答特定区域中对象的存在问题。主要流程如下:

(1)给定一个定义为元组 (x_{1}, y_{1}, z_{1}, x_{2}, y_{2}, z_{2}, c) 的查询;

(2)询问在满足 x_{1}\leq x\leq x_{2}y_{1}\leq y\leq y_{2}z_{1}\leq z\leq z_{2} 的区域中是否存在类 c 的对象,模型应给出 True 或 False 的答案。

2.1.3 如何训练3D语义编码器?

期望所提出的3D视觉编码器能够通过自监督查询任务,感知不同观察空间范围内的语义信息,往往场景中空间位置与对象语义信息的关联有利于下游导航任务。

下面介绍3D语义编码器的训练过程:

(1)使用多层感知(MLP)对查询进行编码,以生成2048-维的向量 q :

其中 c 是类 c 的 one-hot 向量,r=x_{1}, y_{1}, z_{1}, x_{2}, y_{2}, z_{2}W_{c} 是 128\times 150 维的可学习参数,W_{r} 是 128\times 6 维的可学习参数;

(2)使用多头注意力模型的softmax输出来估计答案ans\in \begin{Bmatrix} True, False \end{Bmatrix}的概率:

其中 W_{h} 和 W_{q}  是 256\times 2048 维的可学习参数,h 是为多头注意力层的输出:

其中K, V为经过3D语义编码器编码的3D语义特征。

具体过程如下图所示:


2.2 基于Transformer的视觉语言导航模型

如下图所示:

主要流程如下:

(1)将3D语义特征映射到与RGB特征相同的维度,即768×16;

(2)将RGB特征与映射后的三维语义特征进行concat连接,创建扩展特征(扩展特征嵌封装了详细的纹理和颜色特征以及空间语义特征,形成了更全面的上下文嵌入);

(3)将扩展特征向量通过多层Transformer,使模型能够辨别RGB和3-D语义特征之间的相互作用;

(4)Transformer输出向量一方面用于更新拓扑图,另一方面输入到精细尺度交叉模态编码器中进行局部动作预测。

(5)分别进行局部和全局的多模态融合,然后分别得到局部和全局的动作预测;

(6)将局部和全局的动作预测动态融合,得到最终的动作预测结果。

2.2.1 拓扑图映射

访问节点的嵌入表示:

(1)访问过的节点:通过添加平均池级联特征向量来增强访问过的节点在拓扑图中的嵌入。这种增强通过利用我们提出的3-D语义编码器提取的语义深度信息来促进空间推理。

(2)未访问的节点:由于智能体仅能部分观测未访问节点,这些未访问节点的嵌入表示通过部分池化机制实现——即在对应视图上累积从不同观测位置获取的特征向量。

需要注意的是,768×16维的三维语义嵌入缺乏方向属性,因此采用简单的前馈神经网络(FFN)作为分类器。该网络以具有方向属性的RGB嵌入为输入,预测三维语义嵌入中的token索引,将该索引对应的token作为当前视图的代表性三维特征,本质上是从16个token中选取最优表征。


三、总结

本工作主要提出一种将3D语义信息应用到视觉语言导航VLN任务中的方法。为了实现这一方法,设计了一个区域查询前置学习任务,以自监督学习的方式训练了一个3D语义编码器,将3D语义成功的编码成为了特征,从而与文本特征一起输入到多模态注意力模块,完成了VLN这一任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/71768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络原理之HTTPS(如果想知道网络原理中有关HTTPS的知识,那么只看这一篇就足够了!)

前言:随着互联网安全问题日益严重,HTTPS已成为保障数据传输安全的标准协议,通过加密技术和身份验证,HTTPS有效防止数据窃取、篡改和中间人攻击,确保通信双方的安全和信任。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要…

【江协科技STM32】ADC数模转换器-学习笔记

ADC简介 ADC(Analog-Digital Converter)模拟-数字转换器ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁,ADC是一种将连续的模拟信号转换为离散的数字信号的设备或模块12位逐次逼近型…

文件系统文件管理

文件缓冲区(内核级,OS内部的)存在的意义:系统调用将数据写入缓冲区后函数即可返回,是从内存到内存的,提高了程序的效率。之后将缓冲区数据刷新到硬盘则是操作系统的事了。无论读写,OS都会把数据…

HTML 标签语义化指南:让网页更易读

HTML 语义化标签是指在 HTML 中使用具有明确含义的标签来标记网页内容的结构和意义。这些标签可以提供更多的语义信息,有助于搜索引擎理解网页内容,并为使用辅助技术的用户提供更好的访问体验。 以下是一些常见的HTML语义化标签及其含义和用途&#xff…

机器学习:线性回归,梯度下降,多元线性回归

线性回归模型 (Linear Regression Model) 梯度下降算法 (Gradient Descent Algorithm) 的数学公式 多元线性回归(Multiple Linear Regression)

共绘智慧升级,看永洪科技助力由由集团起航智慧征途

在数字化洪流汹涌澎湃的当下,企业如何乘风破浪,把握转型升级的黄金机遇,已成为所有企业必须直面的时代命题。由由集团,作为房地产的领航者,始终以前瞻视野引领变革,坚决拥抱数字化浪潮,携手数字…

laravel es 相关代码 ElasticSearch

来源&#xff1a; github <?phpnamespace App\Http\Controllers;use Elastic\Elasticsearch\ClientBuilder; use Illuminate\Support\Facades\DB;class ElasticSearch extends Controller {public $client null;public function __construct(){$this->client ClientB…

阿里发布新开源视频生成模型Wan-Video,支持文生图和图生图,最低6G就能跑,ComFyUI可用!

Wan-Video 模型介绍&#xff1a;包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本&#xff0c;分别支持文本到视频&#xff08;T2V&#xff09;和图像到视频&#xff08;I2V&#xff09;生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面开放的视频基础模型&…

闭包函数是什么?

闭包函数是 JavaScript 中一个非常重要且强大的概念&#xff0c;下面将从定义、形成条件、作用、示例以及优缺点等方面详细介绍闭包函数。 定义 闭包是指有权访问另一个函数作用域中的变量的函数。简单来说&#xff0c;即使该函数执行完毕&#xff0c;其作用域内的变量也不会…

nuxt2 打包优化使用“compression-webpack-plugin”插件

在使用 Nuxt.js 构建项目时&#xff0c;为了提高性能&#xff0c;通常会考虑对静态资源进行压缩。compression-webpack-plugin 是一个常用的 Webpack 插件&#xff0c;用于在生产环境中对文件进行 Gzip 压缩。这对于减少网络传输时间和提高页面加载速度非常有帮助。下面是如何在…

大型语言模型训练的三个阶段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)

前言 如果你对这篇文章可感兴趣&#xff0c;可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」&#xff0c;查看完整博客分类与对应链接。 当前的大型语言模型训练大致可以分为如下三个阶段&#xff1a; Pre-train&#xff1a;根据大量可获得的文本资料&#…

模型压缩技术(二),模型量化让模型“轻装上阵”

一、技术应用背景 在人工智能蓬勃发展的浪潮下&#xff0c;大模型在自然语言处理、计算机视觉等诸多领域大放异彩&#xff0c;像知名的GPT以及各类开源大语言模型&#xff0c;其规模与复杂度持续攀升。然而&#xff0c;这一发展也带来了挑战&#xff0c;模型越大&#xff0c;对…

机器学习:愚者未完成的诗篇(零)

当算法在数据海洋中打捞支离破碎的韵律时&#xff0c;机器学习系统展现出的智慧如同断臂的维纳斯雕像——完美与残缺构成令人战栗的美学悖论。愚者&#xff0c;在词语的混沌中编织逻辑经纬&#xff0c;却总在即将触及诗性本质的瞬间&#xff0c;暴露出认知维度的致命裂隙。 一…

【算法题】小鱼的航程

问题&#xff1a; 分析 分析题目&#xff0c;可以看出&#xff0c;给你一个开始的星期&#xff0c;再给一个总共天数&#xff0c;在这些天内&#xff0c;只有周六周日休息&#xff0c;其他全要游泳250公里。 那分支处理好啦 当星期为6时&#xff0c;需要消耗2天&#xff0c;…

GStreamer —— 2.5、Windows下Qt加载GStreamer库后运行 - “教程5:GUI 工具包集成(gtk)“(附:完整源码)

运行效果 简介 上一个教程演示了时间管理及seek操作。本教程介绍如何将 GStreamer 集成到图形用户中 接口 &#xff08;GUI&#xff09; 工具包&#xff0c;如 GTK。基本上 GStreamer 负责媒体播放&#xff0c;而 GUI 工具包处理 用户交互。最有趣的部分是那些 库必须进行交互&…

NLTK和jieba

NLTK与jieba概述 自然语言处理&#xff08;NLP&#xff09;领域是计算机科学领域与人工智能领域中的一个重要方向&#xff0c;主要研究方向是实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 在自然语言处理领域中&#xff0c;文本类型的数据占据着很大的市场&a…

linux查看定时任务与设置定时任务

一、查看定时任务 使用 cron 查看当前用户的定时任务&#xff1a; bash crontab -l # 查看当前用户的cron任务 查看系统级定时任务&#xff1a; bash 系统级任务通常存放在以下位置&#xff1a; cat /etc/crontab # 系统主配置文件 ls /etc/cron.d/ # 系统级任务片段 ls /…

DeepSeek-R1本地化部署(Mac)

一、下载 Ollama 本地化部署需要用到 Ollama&#xff0c;它能支持很多大模型。官方网站&#xff1a;https://ollama.com/ 点击 Download 即可&#xff0c;支持macOS,Linux 和 Windows&#xff1b;我下载的是 mac 版本&#xff0c;要求macOS 11 Big Sur or later&#xff0c;Ol…

支持向量简要理解

决策方程符合感知机区分理论&#xff0c;我们基于线性代数来看这满足子空间理论&#xff0c;可以获取得到超平面。 支持向量机的目标是寻找最与超平面最近的点的最大距离&#xff0c;而距离计算如上&#xff0c;符合数学上计算点到线&#xff08;面&#xff09;的距离公式。 …

使用OpenCV和MediaPipe库——实现人体姿态检测

目录 准备工作如何在Windows系统中安装OpenCV和MediaPipe库&#xff1f; 安装Python 安装OpenCV 安装MediaPipe 验证安装 代码逻辑 整体代码 效果展示 准备工作如何在Windows系统中安装OpenCV和MediaPipe库&#xff1f; 安装Python 可以通过命令行运行python --versio…