重庆做腋臭骑士网站做谷歌推广一个月赚10万
news/
2025/10/8 0:37:46/
文章来源:
重庆做腋臭骑士网站,做谷歌推广一个月赚10万,吉林长春建设工程信息网站,网站开发报告多少页合适本文介绍的是 PointNet 作者的博士论文#xff1a;3D场景理解中的点云深度学习。从上图可以看到#xff0c;整个博士论文主要贡献有两块#xff1a;一是点云深度学习的网络架构#xff08;PointNet 和 PointNet#xff09;#xff1b;二是在3D场景理解中的应用#xff0… 本文介绍的是 PointNet 作者的博士论文3D场景理解中的点云深度学习。从上图可以看到整个博士论文主要贡献有两块一是点云深度学习的网络架构PointNet 和 PointNet二是在3D场景理解中的应用Frustum Pointnets 和 FlowNet3D。在本文中将会按照博士论文篇幅顺序对 PointNet 和 PointNet 进行一次详解介绍。关于后面两章 3D 场景理解中的应用 感兴趣的朋友可以看论文原文这里就不介绍了。 文章目录AbstractAcknowledgmentsIntroduction BackgroundDeep Learning on Point Sets: PointNetProblem StatementPointNet ArchitectureExperimentsAppendixFrom PointNet to PointNetProblem StatementPointNet ArchitectureExperimentsAppendixConclusion and Outlook参考文献Abstract 首先是论文摘要可以看到摘要篇幅不长主要有两段
第一段介绍点云是一种常用的几何数据类型在计算机视觉、计算机图形学和机器人领域有着广泛的应用。廉价的 3D 传感器的出现使得点云数据可以广泛获得而当前对自动驾驶汽车的兴趣突显了可靠和高效的点云处理的重要性。然而由于点云自身格式的不规则目前的卷积深度学习方法不能直接用于点云处理。大多数研究人员将点云数据转换为规则的3D体素网格或图像集合这使得点云数据量变得巨大同时也出现点云量化和其他问题。在本论文中提出了一种新的神经网络 (PointNet和PointNet)可直接处理点云同时考虑了点云输入的排列不变性。网络对物体分类和部件分割到语义场景解析的各种应用提供了统一的架构同时对各种输入扰动和数据损坏具有高效和鲁棒性。理论分析表明网络可以逼近任何连续的集合函数并解释了它的鲁棒性。在 PointNet 中我们进一步研究了点云中的局部内容研究了 3D 扫描中采样密度不均匀的挑战并设计了学习适应不同采样密度的网络层。本文提出的架构打开了新的以 3D 为中心的场景理解方法。我们展示了如何将 PointNets 技术应用于机器人领域中两个重要的感知问题3D物体检测 和 3D场景流估计。在 3D物体检测 方面我们提出了一种新的基于 frustum 的检测框架实现了点云中的 3D实例分割 和 3D非模态的box估计 。我们的模型称为 Frustum PointNets得益于点云提供的精确几何信息能够通过在输入上应用非参数和数据驱动的几何变换来规范化学习问题。在大规模的室内和室外数据集上进行评估我们的实时检测器都取得了最好的检测效果。在场景流估计方面我们提出了一种新的深度网络 FlowNet3D该网络学习从两帧点云中恢复 3D 运动流。与以往侧重于二维表示和优化光流的工作相比我们的模型直接优化了三维场景流在实际 LiDAR 扫描的评估中显示出巨大的优势。由于点云的普遍存在我们的体系结构并不局限于上述两种应用甚至不局限于三维场景理解。本文最后对其它潜在的应用领域和未来的研究方向进行了讨论。这里可以看到作者的摘要写的还是很简短的前面介绍了设计的网络结构后面介绍了两个具体感知应用。 Acknowledgments 下面是论文致谢总共有五段
作者第一段是感谢导师 Leonidas Guibas 教授 Leo教授目前是美国两院院士。对我来说Leo 是一位非凡的导师也是一个学术榜样。他总是保持纯真对新问题保持好奇心。我仍然感谢 Leo 对我的第一个项目的支持这是小组中的第一个深度学习项目。自从那个项目以来我们一直在一起学习和成长。现在我经常惊讶于 Leo 在这些新主题上的渊博知识以及他拥有的深刻洞察力。非常感谢 Leo 经常提醒我要思考得更深在研究中超越工程层面。最后但同样重要的是我感谢 Leo 给我的自由无论是在选择研究课题还是选择职业道路上。Leo 给了我他的建议但让我决定我真正想做的是什么。 最后作者还感谢了论文阅读委员会和答辩委员会们对论文的建议和评论。第二段作者感谢的是博士期间一同工作的同学、同事。特别感谢的是 Hao Su其也是 PointNet 共同一作和PointNet 作者之一。第三段作者感谢的是 Google 和 Nuro 公司正是因为在这两家公司实习作者才去研究了点云上的深度学习以及物体检测作者也感谢了两次实习的其他合作同事。第四段就是感谢家人最后感谢了英伟达捐赠的 GPU 以及其它组织的支持。 Introduction Background
论文前两章导论和背景知识部分这里就不详细介绍了具体内容大家可以看论文原文。
首先是介绍研究背景最近我们观察到许多新兴的应用需要感知 3D 环境或与 3D 对象交互。例如在自动驾驶中为了做出驾驶决策机器人汽车需要意识到周围的行人和汽车并理解他们的动作。在增强现实(AR)中AR 眼镜配备了深度摄像头来感知和理解 3D 几何图形以便在正确的位置显示虚拟对象例如冰箱门上的虚拟菜单。许多 3D 场景理解问题不能通过直接编程的方法来结局因此需要数据驱动的方法来解决。最近深卷积神经网络(CNNs)在 2D 图像理解中的成功启发了我们我们也希望在 3D 数据理解中受益于深度学习从而实现 3D深度学习。
然而与用 2D像素数组表示的图像不同3D 具有许多常见的表示如下图所示点云、多边形结构、体素结构、深度图等。其中点云是从物体表面采样的空间中的一组点通常由激光雷达或深度相机等 3D 传感器采集。在众多的 3D 表示中对于 3D 场景的理解我们特别关注点云原因有两个。
首先点云可能是最接近原始传感器数据的表示形式。点云编码来自传感器的全部信息没有任何量化损失(如体积表示)或投影损失(如多视图表示)因此是三维场景理解中是端到端学习的首选。其次点云在表示上非常简单它只是点的集合避免了网格组合的不规则性和复杂性(如多边形、多边形大小和连通性的选择)因此更容易学习。点云也不需要像在体积表示中那样选择分辨率或者像在多视图图像中那样选择投影视点。
尽管点云其简单性和普及性很强但几乎没有任何关于点云的表示学习工作大多数现有的点云特征都是针对特定任务手动制作的。近年来用深度神经网络处理点云的研究成果很少。然而由于点云是不规则的这些方法几乎都是先将点云转换为其他规则表示然后再应用现有的深层网络结构。
一个例子是将点云转换为二进制占用网格(如果其中有点则体素为1如果为空则为0)然后在体积网格上应用 3DCNN。然而这存在非常高的空间和计算成本。在3DCNN 中存储和计算开销随着网格分辨率的增加呈三次曲线增长。更糟糕的是由于扫描仪只从物体表面捕获点许多体素都是空的因此浪费了大量的计算。由于昂贵的成本大多数工作只使用非常粗糙的网格例如分辨率为 30x30x30x30这反过来会导致较大的量化误差。除了将点云体素化到体网格和使用 3D CNN还可以将点云投影到 2D 平面上或从 2D 平面绘制 2D 图像然后使用流行的 2D CNN但是由于投影某些3D信息会丢失并且选择哪个视点进行投影并不总是显而易见的。此外人们可以首先从点云中提取手工制作的特征然后使用简单的全连接网络来处理它们。然而通过这种方式特征学习是通过手工制作的特征来实现的。
由于所有这些转换都有不足之处一个吸引人的研究问题是我们能否直接在点云上实现有效的特征学习 答案是肯定的下面作者就开始介绍了自己的研究工作PointNet/PointNet/Frustum PointNets/FlowNet3D可以看作是摘要的扩充版后面还会再详细介绍这里就跳过了。 在背景知识部分
作者介绍了所使用的数据集MNIST、ModelNet40、ShapeNetPart、SHREC15、S3DIS、ScanNet、SUN RGB-D、FlyingThings3D、KITTI可以看到作者博士期间的工作量还是很大的。然后从五个方面介绍了相关工作Point Cloud Descriptors、Deep Learning on Unordered Points、Deep Learning on Other 3D Representations、3D Object Detection、Scene Flow Estimation。背景知识部分这一章作者写的还是很详细的值得学习。 Deep Learning on Point Sets: PointNet
在本章我们开始学习 PointNet。下图是 PointNet 的应用包括物体分类、部件分割、语义分割。虽然点云在表示上很简单但在实际处理中面临着两个挑战。
首先点云只是一组点因此这些点的排列组合应是不变的这句话其实是说在处理点云数据时无论这些点如何排列组合所表示的物体都是确定的。其次还需要考虑刚体运动的不变性。即无论怎么进行旋转平移操作点云所表示的物体也都是确定的。
为了解决上面两个问题作者构造了一个由神经网络组成的对称函数从而保证了它对输入点云序列的不变性。与一般论文所不同的是作者除了进行了实验评估还进行了理论分析证明了所设计的网络可以逼近任何连续的集合函数。更有趣的是网络学会了通过一组稀疏的关键点来总结输入点云根据可视化关键点大致对应于对象的骨架。 Problem Statement
下面介绍下我们要处理的问题。假设点云数据集为 {Pi∣i1,…,n}\left\{P_{i} \mid i1, \ldots, n\right\}{Pi∣i1,…,n}每个点 PiP_iPi 可以由坐标 (x,y,z)(x,y,z)(x,y,z) 以及其它特征通道来表示如颜色等这里为了简化每个点只包含坐标 (x,y,z)(x,y,z)(x,y,z) 通道。
对于物体分类任务设计的网络对 kkk 个候选类输出 kkk 个分数对于部件分割和语义分割设计的网络会输出 n×mn \times mn×m 个分数每一个点会有 mmm 个类别分值。 PointNet Architecture 先来看一下输入的点云数据它有三个主要的性质
无序性。与图像的像素数组或体素网格中的体素数组所不同点云是一个无特定顺序的点的集合。换句话说一个网络在处理 NNN 个点时应该能保证对这些点 N!N!N! 个排列组合输入时保持不变。点之间的相互作用。每个点并不是完全孤立的它们与相邻的点形成了一个有意义的子集。因此模型需要能够从邻近的点捕获局部特征。刚体变换不变性。作为一个几何体网络在物体经过不同刚体变换后学到的表征应该是不变的。例如旋转或平移所有的点不应该修改全部点的类体和每个点的分割结果。 下面着详细绍下 PointNet 网络结构。从下图可以看到分类网络和分割网络有很大一部分比例是共用的。整个网络有三个关键模块
1最大池化层 作为一个对称函数聚合所有点的信息2局部和全局特征组合结构3两个对齐网络对齐输入点云和点云特征。 无序点云对称函数。为了让模型对点云的排列组合保持不变可以有三种办法1对输入的点云顺序进行排序2使用 RNN 网络讲输入看作是一个序列但是使用全局的排列组合来进行数据增强3使用简单的对称函数聚合每个点的信息。例如 和 ∗*∗ 运算符是对称二元函数其实是我们学过的加法或乘法交换律。
我们的思想是通过对点集上的变换元素应用对称函数来逼近定义在该点集上的通用函数即 f({x1,…,xn})≈g(h(x1),…,h(xn))f\left(\left\{x_{1}, \ldots, x_{n}\right\}\right) \approx g\left(h\left(x_{1}\right), \ldots, h\left(x_{n}\right)\right) f({x1,…,xn})≈g(h(x1),…,h(xn))
其实f:2RN→R,h:RN→RKf: 2^{\mathbb{R}^{N}} \rightarrow \mathbb{R}, h: \mathbb{R}^{N} \rightarrow \mathbb{R}^{K}f:2RN→R,h:RN→RK$ g:RK×⋯×RK⏟n→Rg: \underbrace{\mathbb{R}^{K} \times \cdots \times \mathbb{R}^{K}}_{n} \rightarrow \mathbb{R}g:nRK×⋯×RK→R 是一个对称函数。在实验上我们的基本模式很简单使用多层感知机来近似函数 hhhggg 是一个最大池化函数。使用这些基本模块就可以构建一个简单的 PointNet 网络。如下图所示。 Experiments Appendix From PointNet to PointNet
Problem Statement
PointNet Architecture
Experiments
Appendix Conclusion and Outlook 参考文献
论文链接Deep Learning On Point Clouds For 3D Scene Understanding
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/931003.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!