TPAMI 2025 | 从分离到融合:新一代3D场景技术建立双重能力提升!

news/2025/11/21 22:38:13/文章来源:https://www.cnblogs.com/tlnshuju/p/19254702

TPAMI 2025 | 从分离到融合:新一代3D场景技术建立双重能力提升!

2025-11-21 22:28  tlnshuju  阅读(0)  评论(0)    收藏  举报

本文提出了一种名为 OccScene 的新型相互学习 (mutual learning)范式,旨在统一精细化的 3D 场景感知与高质量的生成任务。当前方法通常将生成与感知分离,生成模型仅作为数据增强器,这导致了灵活性受限、约束不足和目标不明确等挑战。OccScene 创新地将语义占据预测 (semantic occupancy prediction)和文本驱动的场景生成整合到一个联合训练的扩散模型 (diffusion models) 框架中。

该框架通过一个基于Mamba的双重对齐模块,将语义占据信息作为先验知识,有效引导扩散过程,从而生成仅依赖文本提示的高保真、多视角一致的3D场景(包括图像/视频及其对应的语义占据栅格)。凭借此种跨任务协同,感知模块可以利用生成的多样化场景得到增强,而增强的感知能力反过来又提升了生成质量,完成了“双赢”效果。实验证明,OccScene 不仅能生成逼真的室内外3D场景,还能显著提升下游3D语义占据预测任务的性能。

另外我整理了TPAMI 2025 CV相关论文合集,感兴趣的dd!
原文 资料 这里!

Figure 1.

一、论文基本信息

基本信息

摘要精炼

提出了 OccScene,一个统一了3D场景感知与生成的相互学习框架。该框架在一个联合扩散过程中,利用感知模型预测的语义占据作为先验,指导文本驱动的场景生成,同时,生成的多样化数据也反哺感知模型的训练。就是该研究旨在解决现有3D场景生成方法与下游感知任务分离、依赖真值标签、缺乏灵活性和精细约束的困难。核心贡献

关键技术是一种名为Mamba的模块,它高效地对齐了语义占据信息和扩散模型的潜在特征,确保了跨视角生成的一致性和精细的几何语义引导。最终,论文证明了该方法不仅能生成高质量的3D场景,还能作为一个即插即用的训练策略,显著提升语义占据预测任务的性能,例如在 SemanticKITTI 数据集上实现了 113.28 的 FVD 和 19.86 的 FID,同时将多个基线感知模型的 mIoU 提升了高达 4.38%。

二、研究背景与相关工作

研究背景

3D感知模型的性能高度依赖于大规模、精细标注的内容集,但这类材料的获取成本高昂。尽管生成扩散模型在2D图像合成方面取得了巨大成功,并被用于为下游任务生成合成数据,但在生成具有真实布局和几何结构的场景级3D数据方面仍面临巨大挑战。

现有方法通常依赖于3D真值标签(如3D边界框)来辅助生成,这限制了生成场景的多样性和灵活性,特定是难以生成罕见的“角落案例”。此外,这些粗粒度的先验信息(如边界框)不足以为复杂的真实世界场景生成提供像素级的精细语义与几何约束。因此,迫切需要一种不依赖真值标签、能生成多样化且对下游感知任务有价值的3D场景生成新范式。

相关工作

相关工作主要分为两大类。

第一类是用于场景生成的扩散模型,如 DriveDreamer、MagicDrive 等,它们尝试生成逼真的驾驶场景。然而,这些方法大多在推理过程中依赖地面真实(GT)标签进行几何约束,限制了其灵活性,并且通常将生成与感知视为独立过程,降低了生成内容对感知任务的针对性。

第二类是语义占据预测(SOP),这是一个统一了场景补全与语义分割的3D感知任务。从早期的 SSCNet 到近期的 MonoScene、TPVFormer等,这些途径在从单目或多视角图像进行3D场景理解方面取得了显著进展。然而,它们都依赖于现有的数据集进行监督训练,如何利用强大的生成模型来创造高质量的训练数据对以提升感知性能,仍然是一个未被深入探索的问题。现有工作普遍缺乏一个将生成与感知进行联合优化以实现相互促进的框架。

三、重要贡献与创新

  • 提出新型相互学习范式:首次提出了一个将3D场景感知与生成深度融合的生成范式,通过在联合扩散过程中协同优化,实现了两个任务的相互增益。

  • 提出Mamba模块:设计了一个高效的MDA模块,利用摄像机轨迹感知来保证跨视角的生成一致性,并通过对齐的上下文信息,将精细的几何与语义先验(来自语义占据)融入扩散模型,提升了生成质量。

  • 实现感知驱动的生成与数据增强:将感知模型集成到生成流程中,不仅通过感知的先验知识提升了生成效果,还利用文本驱动生成了多样化和定制化的场景数据,作为一种有效的素材增强手段,显著提升了下游感知模型的性能。

四、研究方法与原理

总体框架与核心思想

OccScene 的核心思想是跨任务协同与联合优化。它将通常独立的3D场景生成和语义占据感知两个任务耦合在一个统一的扩散学习框架中。其设计哲学许可概括为“生成引导感知,感知约束生成”。

具体来说,框架包含一个生成式的扩散U-Net和一个感知模型。在训练的每一步,输入的带噪图像不仅被送入扩散模型进行去噪,还被送入感知模型预测其语义占据栅格 (semantic occupancy grids)有明确的3D结构感知的,从而提升了生成图像的真实性和一致性。就是。这个预测出的占据栅格随后作为额外的、精细的条件,输入到扩散U-Net中,以几何和语义的方式引导生成过程。这种设计使得生成过程不再是盲目的,而

Figure 2.

关键实现与评估原理

关键实现细节

  1. 联合扩散方案:框架采用两阶段训练策略。第一阶段,固定预训练的感知模型,仅训练扩散U-Net以适应特定数据。第二阶段,联合训练扩散U-Net和感知模型,达成相互促进。损失函数结合了潜在扩散模型 (Latent Diffusion Model, LDM)的重构损失和感知损失:
    L = L LDM + α ˉ t L p L = L_{\text{LDM}} + \sqrt{\bar{\alpha}_t} L_pL=LLDM+αˉtLp
    其中,感知损失L p L_pLp包含语义、几何和类别加权损失,而α ˉ t \sqrt{\bar{\alpha}_t}αˉt因子根据噪声水平动态调整监督强度,确保训练稳定。
  2. Mamba模块:这是达成高效约束的关键。该模块首先通过“跨视角相机编码”将相机参数融入语义占据特征,搭建轨迹感知和视角一致性。然后,利用一个双向的 Mamba 模块(一种状态空间模型 (State Space Models, SSMs)),沿着深度轴和时间轴顺序扫描占据特征和潜在特征,建立上下文对齐和高效特征融合。

Figure 3.

  1. 推理过程:推理时,从高斯噪声开始,在每个去噪步骤中,感知模型都会根据当前生成的(带噪)图像预测出语义占据,并将其作为条件送入下一轮的扩散U-Net中,形成一个迭代优化的闭环。

核心评估原理与指标

五、实验结果与分析

实验设置

核心实验与结论

【一项最能体现本文贡献的核心实验】

Figure 5.

  • 实验目的: 验证“联合扩散方案(JDS)”相较于传统“分离式”方案(即离线生成数据再训练感知模型)的优越性,证明相互学习机制的有效性。

  • 关键结果: 在 SemanticKITTI 验证集上的消融实验(见表 VII)显示:

    • 不使用JDS(w/o JDS)时,FID 为 28.52,FVD 为 187.21,mIoU 为 12.94%。
    • 使用JDS(完整OccScene模型)时,FID 降至 19.86,FVD 降至 113.28,mIoU 提升至 14.98%。
      此外,图 5 的学习曲线表明,相互学习策略能够引导模型找到更优的损失最小值,避免了独立学习中途可能出现的停滞。
  • 作者结论: 结果明确表明,联合扩散方案(相互学习)对生成和感知任务均有显著益处。对于生成任务,实时的感知反馈提供了更强的约束,使 FID 和 FVD 分别降低了约 30% 和 39%。对于感知任务,经过在生成过程中利用不同噪声水平的图像进行训练,感知模型获得了更强的鲁棒性,mIoU 提升了 2.04 个百分点。这证明了 OccScene 的核心机制——跨任务协同——是成功的。

六、论文结论与启示

总结

本文成功提出了 OccScene,一个创新性地将3D场景感知与生成统一在相互学习框架下的技巧。借助设计一个联合扩散方案,并引入新颖的Mamba模块,OccScene 搭建了仅通过文本提示便能生成高质量、多视角一致的3D场景及其语义占据。该框架的核心优势在于打破了生成与感知的壁垒,感知模型为生成提供精细的3D结构先验,而生成过程中的多样化数据又反过来增强了感知模型的性能和鲁棒性,形成了良性循环。大量的室内与室外场景实验结果不仅展示了其卓越的场景生成能力,也证明了其作为一种即插即用的训练策略,能显著提升现有3D语义占据预测模型的SOTA性能。

展望

尽管论文未明确阐述未来工作,但其研究为后续探索开辟了几个潜在方向:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/972593.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详细介绍:后端开发常用Linux命令

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

QT:Qt5.14向文档输出表格--编译异常信息

QT向文档输出表格:输出近5年的高考信息统计表 22:29:34: Starting D:\Demo\QT5.14\CH12\CH1402\build-WordWritetable-Desktop_Qt_5_14_2_MinGW_64_bit-Debug\debug\WordWritetable.exe ... QAxBase::dynamicCallHel…

《程序员修炼之道》阅读笔记5

《程序员修炼之道》第五章"弯曲,或折断"阅读笔记 解耦与得墨忒耳法则 解耦是构建灵活、可维护系统的核心原则。书中提出的得墨忒耳法则(Law of Demeter)为降低模块间耦合提供了明确指导:对象的方法应只调…

java面向对象知识补充

static静态变量补充知识:static静态变量:数据只需要一份,且需要被共享时(访问,修改)例如,记录全局某个数量。 实例变量:每个对象都要有一份,数据各不同。(普通定义)静态方法静态方法可以用来设计工具类。工…

团队作业 3 - 教学课件和班级管理系统 需求改进 系统设计 - WAR

一、需求 & 原型改进(20 分)课堂讨论问题及修改(5 分)问题 1 修改 1课件格式支持单一(仅支持 PPT/PDF) 增加视频(MP4)、音频(MP3)格式课件上传与在线预览支持成绩统计维度单一(仅平均分) 新增最高分、…

win11下载安装python,命令提示符输入python,打开Microsoft store界面,解决方案

win11下载安装python,命令提示符输入python,打开Microsoft store界面,解决方案1.找到python安装路径, C:\Users\33723\AppData\Local\Programs\Python\Python314 C:\Users\33723\AppData\Local\Programs\Python\Py…

卷积神经网络的引入3 —— MLP 与 CNN 在更大数据集上的性能对比实验

卷积神经网络的引入3 —— MLP 与 CNN 在更大数据集上的性能对比实验 在前两篇文章中,我们分别验证了:MLP 对平移等扰动非常敏感,而 CNN 具备更好的鲁棒性 在 Fashion-MNIST(低维灰度图)下,MLP 与 CNN 的表现差距…

全网都在找的Nano Banana Pro API 来了!便宜稳定0.15/张

Nano Banana Pro(Gemini 3 Pro Image)是Google基于Gemini 3 Pro开发的新一代图像生成与编辑模型,它不仅在图像质量上达到了新的高度,更在文字渲染、多图像融合和实时信息整合方面带来了突破性的进展。本文将带你全…

通过DataReader获取sql查询的字段元数据信息

原理 应用程序调用 GetSchemaTable()↓ ADO.NET 驱动程序生成元数据查询SQL↓ 发送到数据库服务器执行↓ 数据库返回结果集架构信息(不包含实际数据)↓ ADO.NET 解析架构信息并构建 DataTable↓ 返回包含完整列信息的…

Docker命令入门

Docker命令入门1. 使用容器运行 Nginx 应用 1.1 使用 docker run 命令运行 Nginx 应用 1.1.1 观察下载容器镜像过程查找本地容器镜像文件执行命令过程一:下载容器镜像 $ docker run -d nginx:latestUnable to find im…

2025.11.21 - A

今天形势与政策,听了一些国际形势,收获颇丰

2025年新版ADB工具箱下载+驱动+ADB指令集+fastboot刷机ROOT程序

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

P7960 [NOIP2021] 报数__洛谷题解

P7960 [NOIP2021] 报数 题目描述 报数游戏是一个广为流传的休闲小游戏。参加游戏的每个人要按一定顺序轮流报数,但如果下一个报的数是 \(7\) 的倍数,或十进制表示中含有数字 \(7\),就必须跳过这个数,否则就输掉了游…

The 5W2H Problem-Solving Method

The 5W2H Problem-Solving Method https://www.msicertified.com/wp-content/uploads/2024/02/The-5W2H-Problem-Solving-Method.pdf 出处:http://www.cnblogs.com/lightsong/本文版权归作者和博客园共有,欢迎转载,但…

题解:SP5830 ALTPERM - Alternating Permutations

题意:给你 \(K\) 个下标,保证 \(A_1=1,A_K=N\),且对任意的 \(i<N\) 有 \(A_i<A_{i+1}\)。 如果一个排列,在下标 \(A_1\) 到 \(A_2\) 处单调递增,在下标 \(A_2\) 到 \(A_3\) 处单调递减,在下标 \(A_3\) 到 …

图床创建:github+Picgo+obsidian 带有同步删除的自动上传

最近一直在做DL部分的学习笔记,一个比较麻烦的地方就是我一直用的obsidian做笔记内容,在博客园导入随笔后,图片的链接一直是我的本地路径,自然无法显示,于是我只好在导入随笔后再把图片一张张上传到博客园的图床上…

重组生长因子全面解析:从结构功能到科研应用指南

重组生长因子是现代生命科学研究中不可或缺的重要工具,它们通过基因工程技术在体外表达和纯化获得,为细胞生物学、发育生物学及信号转导研究提供了高纯度、高活性的关键试剂。作为科研试剂,重组生长因子以其精确的序…

2055.11.21

十点睡醒起床,吃饭 然后洗澡回宿舍上网课,开团会,出去吃饭,回宿舍准备睡觉

Dify异步接口调用优化实践:解决长时任务处理与网络超时疑问

Dify异步接口调用优化实践:解决长时任务处理与网络超时疑问pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Conso…