【前沿 热点 顶会】NIPS 2024中目标检测有关的论文

迈向灵活的 3D 感知:以对象为中心的占领完成增强长序列的 3D 目标检测

虽然 3D 对象边界框(BBox)表示在自动驾驶感知中得到了广泛的应用,但它们缺乏捕捉对象内部几何形状的复杂细节的能力。最近,占有(occupancy)已经成为 3D 场景感知的一种很有前途的替代方案。然而,由于计算的限制,构建高分辨率的占用地图对于大型场景仍然是不可行的。认识到前景对象比背景元素更重要,但只占据场景的一小部分,我们引入了以对象为中心的占用作为对象 bbox 的补充。这种表示不仅为检测到的物体提供了复杂的细节,而且在实际应用中还允许更高的体素分辨率。我们从数据和算法两个角度推进了以对象为中心的占有感的发展。

有理论保证的无监督目标检测

使用深度神经网络的无监督目标检测通常是一个困难的问题,对于学习的表示几乎没有保证。在这项工作中,我们提出了第一种无监督目标检测方法,该方法在理论上保证可以恢复到可量化的微小位移的真实目标位置。我们开发了一种无监督的目标检测体系结构,并证明了学习的变量对应于真实的目标位置,直到与编码器和解码器的接受场大小、目标大小和渲染过程中使用的高斯宽度相关的小偏移。我们对误差如何依赖于这些变量进行了详细的分析,并进行了合成实验,以验证我们的理论预测,精度高达单个像素。

MonoMAE:通过深度感知掩蔽自动编码器增强单目 3D 检测

单目三维目标检测的目的是从单视图像中精确地定位和识别目标。尽管最近取得了进展,但它在处理普遍存在的对象遮挡时经常会遇到困难,这些遮挡往往会使对象尺寸、深度和方向的预测复杂化和降级。我们设计了 MonoMAE,这是一种单目3D 探测器,灵感来自于掩蔽自动编码器,它通过掩蔽和重建特征空间中的对象来解决目标遮挡问题。 MonoMAE 由两个新颖的设计组成。

YOLOv 10:实时端到端对象检测

在过去的几年中,由于其在计算成本和检测性能之间的有效平衡, YOLO 已经成为实时目标检测领域的主导范例。研究人员探索了 YOLO 的架构设计、优化目标、数据增强策略等,取得了显著进展。然而,依赖非最大抑制(NMS)进行后处理阻碍了 YOLO 的端到端部署,并对推理延迟产生了不利影响。此外, YOLOS 中各部件的设计缺乏全面、彻底的检查,导致明显的计算冗余,限制了模型的能力。它提供了次优的效率,以及相当大的性能改进潜力。在这项工作中,我们的目标是从后处理和模型体系结构两个方面进一步推进 YOLO 的性能-效率边界。

DI-MaskDINO:联合对象检测和实例分割模型

本文研究了一个有趣的现象:在研究 MaskDINO 的初始Transformer解码层(即用于联合检测和分割的 SOTA 模型)的中间结果时,目标检测的性能落后于实例分割的性能(即性能不平衡)。这一现象启发了我们思考一个问题:Transformer起始解码层的性能不平衡是否会制约最终性能的上限?带着这个问题,我们进一步进行了定性和定量的预实验,验证了检测-分割不平衡问题对模型性能的负面影响。针对这一问题,本文提出了 DI-MaskDINO 模型,其核心思想是通过缓解检测-分割失衡来提高最终的性
能。 DI-MaskDINO 通过将我们提出的去失衡(DI)模块和平衡感知令牌优化(BATO)模块配置为 MaskDINO 来实现。

FFAM:用于解释 3D 检测器的特征因子分解激活地图

基于激光雷达的三维目标检测近年来取得了令人印象深刻的进展,但现有的大多数模型都是黑箱模型,缺乏可解释性。以前的解释方法主要集中于分析基于图像的模型,并且不容易适用于基于 LiDAR 的 3D 探测器。在本文中,我们提出了一种特征分解激活图(FFAM)来生成高质量的 3D 探测器视觉解释。

AdaptiveISP:学习用于对象检测的自适应图像信号处理器

图像信号处理器将传感器的原始信号转换为数字图像,这对图像质量和下游计算机视觉任务的性能有很大影响。设计 isp 流水线和调整 isp 参数是构建成像和视觉系统的两个关键步骤。为了找到最优的 isp 配置,最近的工作使用深度神经网络作为代理来搜索 isp 参数或 isp 管道。然而,这些方法主要是为了最大化图像质量而设计的,这些图像质量在诸如检测、识别和跟踪等高级计算机视觉任务的性能上是次优的。此外,经过训练后,学习到的网络服务提供商流水线在推理时大多是固定的,在动态场景中性能下降。为了联合优化服务提供商的结构和参数,我们提出了一种任务驱动和场景自适应的服务提供商 AdaptiveISP。

一个适用于所有:基于点云的 3D 对象检测的多域联合训练

目前计算机视觉的趋势是利用一个通用模型来处理所有不同的任务。要实现这样的通用模型,不可避免地需要整合多域数据以进行联合培训,以跨多个问题场景进行学习。然而,在基于点云的三维物体检测中,这种多域联合训练具有很高的挑战性,因为来自不同数据集的点云之间存在较大的域间隙,导致了严重的域干扰问题。在本文中,我们提出了 OneDet3D,这是一个通用的一体式模型,在相同的框架内和只有一组参数的情况下,解决了不同领域的 3D 检测问题,包括不同的室内和室外场景。

长尾对象检测预训练:动态再平衡双重建对比学习

虽然大规模预训练和下游微调是目标检测中的一种流行方法,但它在具有显著长尾分布的数据集上往往表现不佳。我们的研究发现,偏差不仅源于分类器权重规范中的极端不平衡,还源于特征表示水平上的简单性偏差。为了应对这些挑战,我们引入了一种新的预训练方法–动态再平衡双重重建对比学习(DRCL)。

获取和伪造:用于对象检测的高效数据集浓缩

数据集压缩(DC)是一种新兴的技术,能够从大型原始数据创建紧凑的合成数据集,同时保持相当高的性能。它对于加快网络培训和降低数据存储需求至关重要。然而,目前 DC 的研究主要集中在图像分类上,对目标检测的研究较少,这主要是由于两个挑战: (1)目标检测的多任务性质使压缩过程复杂化; (2)目标检测数据集具有大规模和高分辨率的特点,这是现有 DC 方法难以处理的。它分为两个阶段:FETCH 和 FORGE,首先将关键的定位和分类信息存储到模型参数中,然后通过模型反演重建合成图像。

多视图 3D 对象检测的统一领域概括和适应

基于多视角摄像机的三维目标检测方法在各种具有挑战性的视觉任务中具有实用和经济的价值。然而,由于源和目标域之间不可避免的几何错位,典型的监督学习方法面临着对不可见和未标记的目标数据集(即直接转移)的满意适应的挑战。在实践中,我们还遇到了用于训练模型和收集注解的资源的限制,从而成功地部署了三维对象检测器。本文提出了一种实用的解决方案–统一域泛化和适应(UDGA)。首先,利用多视点之间的强关联,提出了多视点重叠深度约束,并在此基础上提出了一种多视点重叠深度约束方法。然后,我们提出了一种标签高效的领域自适应方法来处理标签数量显著减少(即 1%和 5%)的陌生目标,同时保留了定义良好的源知识以提高训练效率。总体而言, UDGA 框架能够在源域和目标域中实现稳定的检测性能,有效地弥合不可避免的域差距,同时需要更少的注释。我们通过大规模基准测试:nuScenes、 Lyft 和 Waymo 证明了 UDGA 的健壮性,其中我们的框架性能优于当前最先进的方法。

NIPS 2024论文合集PDF版

本篇博客的内容从NIPS 2024 论文题目与摘要中搜索得出。

这份资料收录了NIPS 2024所有论文的标题和摘要,总共有3547页,而且是中英文对照的,读起来方便多了。

如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻这些最新的研究,说不定就能找到一些新的想法或思路。

平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的!

NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/55484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

《Linux从小白到高手》理论篇(六):Linux软件安装一篇通

List item 本篇介绍Linux软件安装相关的操作命令,看完本文,有关Linux软件安装相关操作的常用命令你就掌握了99%了。 Linux软件安装 RPM RPM软件的安装、删除、更新只有root权限才能使用;查询功能任何用户都可以操作;如果普通用…

移情别恋c++ ദ്ദി˶ー̀֊ー́ ) ——13.mapset(模拟实现)

1.对红黑树进行改造 1.1treenode模板参数改变 之前构建treenode模板参数传的是class k,class v(set为k&#xff0c;k&#xff1b;map是k&#xff0c;v&#xff09;&#xff0c;现在直接用T代替 template<class T> //这里直接传了T作为模板参数&#xff0c;T可能是pai…

【WRF工具】cmip6-to-wrfinterm工具概述:生成WRF中间文件

cmip6-to-wrfinterm工具概述 cmip6-to-wrfinterm工具安装cmip6-to-wrfinterm工具使用快速启动&#xff08;Quick start&#xff09;情景1&#xff1a;MPI-ESM-1-2-HR&#xff08;默认&#xff09;&#xff1a;情景2&#xff1a;BCMM情景3&#xff1a;EC-Earth3 更改使用&#x…

Hive数仓操作(四)

一、Hive 创建表案例一&#xff08;ARRAY数组类型&#xff09; 1. 准备数据文件 首先&#xff0c;准备一个名为 stu2.txt 的文件&#xff0c;文件内容示例如下&#xff1a; 1001 Alice fish,cat 1002 Bob dog,rabbit 1003 Charlie bird注意&#xff1a; …

进度条(倒计时)Linux

\r回车(回到当前行开头) \n换行 行缓冲区概念 什么现象&#xff1f; 什么现象&#xff1f;&#xff1f; 什么现象&#xff1f;&#xff1f;&#xff1f; 自己总结&#xff1a; #pragma once 防止头文件被重复包含 倒计时 在main.c中&#xff0c;windows.h是不可以用的&…

大语言模型入门(一)——大语言模型智能助手

一、大语言模型智能助手 2022年末ChatGPT一经推出&#xff0c;一时间不注册个账号用一下都跟不上潮流了。然而&#xff0c;我们要注册OpenAI的账号使用ChatGPT还是一件比较麻烦的事情&#xff08;懂的都懂&#xff09;。好在&#xff0c;国内各大团队非常给力地及时推出了自研的…

计算机网络--TCP、UDP抓包分析实验

计算机网络实验 目录 实验目的 实验环境 实验原理 1、UDP协议 2、TCP协议 实验具体步骤 实验目的 1、掌握使用wireshark工具对UDP协议进行抓包分析的方法&#xff0c;掌握UDP协议的报文格式&#xff0c;掌握UDP协议校验和的计算方法&#xff0c;理解UDP协议的优缺点&am…

探索、深化技能与软实力共进

在当下的大语言模型AIGC快速发展的时代&#xff0c;AI辅助编程工具的普及正在深刻改变程序员的工作方式。面对这一变革&#xff0c;程序员如何保持并提升自身的核心竞争力&#xff0c;是每个程序员都需要思考的问题。  一、认知AI的力量  AI技术的发展和普及为程序员提供了…

Linux云计算 |【第四阶段】RDBMS1-DAY3

主要内容&#xff1a; 子查询&#xff08;单行单列、多行单列、单行多列、多行多列&#xff09;、分页查询limit、联合查询union、插入语句、修改语句、删除语句 一、子查询 子查询就是指的在一个完整的查询语句之中&#xff0c;嵌套若干个不同功能的小查询&#xff0c;从而一…

《OpenCV》—— 指纹验证

用两张指纹图片中的其中一张对其验证 完整代码 import cv2def cv_show(name, img):cv2.imshow(name, img)cv2.waitKey(0)def verification(src, model):sift cv2.SIFT_create()kp1, des1 sift.detectAndCompute(src, None)kp2, des2 sift.detectAndCompute(model, None)fl…

stm32四足机器人(标准库)

项目技术要求 PWM波形的学习 参考文章stm32 TIM输出比较(PWM驱动LED呼吸灯&&PWM驱动舵机&&PWM驱动直流电机)_ttl pwm 驱动激光头区别-CSDN博客 舵机的学习 参考文章 stm32 TIM输出比较(PWM驱动LED呼吸灯&&PWM驱动舵机&&PWM驱动直流电机)…

Pikichu-xss实验案例-通过xss获取cookie

原理图&#xff1a; pikachu提供了一个pkxss后台&#xff1b; 该后台可以把获得的cookie信息显示出来&#xff1b; 查看后端代码cookie.php&#xff1a;就是获取cookie信息&#xff0c;保存起来&#xff0c;然后重定向跳转到目标页面&#xff1b;修改最后从定向的ip&#xff0…

计算机组成原理之乘/除法运算的基本原理,乘法电路与除法电路的基本结构

计算机组成原理之乘/除法运算的基本原理 乘法运算&#xff1a; 基本原理&#xff1a;在计算机中&#xff0c;乘法运算通常通过累加-左移&#xff08;对于二进制乘法&#xff09;或利用阵列乘法器实现。累加-左移方法通过将被乘数与乘数的每一位相乘&#xff08;与操作&#x…

V3D——从单一图像生成 3D 物体

导言 论文地址&#xff1a;https://arxiv.org/abs/2403.06738 源码地址&#xff1a;https://github.com/heheyas/V3D.git 人工智能的最新进展使得自动生成 3D 内容的技术成为可能。虽然这一领域取得了重大进展&#xff0c;但目前的方法仍面临一些挑战。有些方法速度较慢&…

c语言基础作业

选择题 1.1、以下选项中,不能作为合法常量的是 __________ A&#xff09;1.234e04 B&#xff09;1.234e0.4C&#xff09;1.234e4 D&#xff09;1.234e0 1.2、以下定义变量并初始化错误的是_____________。 A) char c1 ‘H’ &#xff1b; B) char c1 9…

【数一线性代数】021入门

Index 推荐阅读&#xff1a;https://blog.csdn.net/weixin_60702024/article/details/141729949分析实现总结 推荐阅读&#xff1a;https://blog.csdn.net/weixin_60702024/article/details/141729949 给定二叉树的根节点root&#xff0c;计算其叶节点的个数。 分析实现 类似…

Scrapy 爬虫的大模型支持

使用 Scrapy 时&#xff0c;你可以轻松使用大型语言模型 (LLM) 来自动化或增强你的 Web 解析。 有多种使用 LLM 来帮助进行 Web 抓取的方法。在本指南中&#xff0c;我们将在每个页面上调用一个 LLM&#xff0c;从中抽取我们定义的一组属性&#xff0c;而无需编写任何选择器或…

网络编程(5)——模拟伪闭包实现连接的安全回收

六、day6 今天学习如何利用C11模拟伪闭包实现连接的安全回收&#xff0c;之前的异步服务器为echo模式&#xff0c;但存在安全隐患&#xff0c;在极端情况下客户端关闭可能会导致触发写和读回调函数&#xff0c;二者都进入错误处理逻辑&#xff0c;进而造成二次析构。今天学习如…

Java 类加载委托机制

1. 引言 Java 中的类加载机制是 JVM 的核心之一&#xff0c;它通过将字节码加载到内存中&#xff0c;使得程序能够正常运行。而在这个过程中&#xff0c;Java 引入了一种独特的“类加载委托机制”&#xff08;也称双亲委派机制&#xff09;&#xff0c;以确保类加载的稳定性与…