多视图密集对应学习:细粒度3D分割的自监督革命

原文标题:Multi-view Dense Correspondence Learning (MvDeCor)

引言

在计算机视觉与图形学领域,3D形状分割一直是一个基础且具有挑战性的任务。如何在标注稀缺的情况下,实现对3D模型的细粒度分割?近期,斯坦福大学视觉实验室提出的"MvDeCor"方法给我们带来了启示:通过多视图密集对应学习,自监督预训练2D网络,并将2D嵌入反投影到3D,实现高精度的细粒度分割。本文将从方法原理、技术细节、实验验证及应用场景等多方面进行深入解读,并给出在CSDN发布的美观排版建议,帮助大家快速上手并冲上热搜。

背景与挑战

  1. 细粒度3D分割需求

    • 将3D模型按更小、更具体的部件分割(如将椅子分割为椅背、椅座、椅腿)。

    • 能够捕捉微小结构差异,如螺丝、铆钉等。

  2. 标注数据稀缺

    • 手工标注3D模型成本高昂且耗时。

    • 大规模标注难以推广到多类别与多场景。

  3. 3D网络难以表达高分辨率细节

    • 点云/体素网络在细节捕捉上受限。

    • 普通3D自监督方法(如PointContrast)mIoU提升有限。

  4. 借助2D视觉先验的潜力

    • 2D图像领域自监督与对比学习技术成熟:ImageNet预训练、DenseCL等。

    • 2D CNN具备高分辨率处理能力,可为3D任务提供丰富的特征。

MvDeCor 方法概览

核心思想:利用多视图渲染的2D图像,在像素级别建立密集对应,通过自监督对比学习训练2D CNN,再将2D嵌入聚合为3D分割

主要流程:

  1. 多视图渲染:从多个视角渲染3D模型,生成RGB图、深度图、法线图,以及对应的三角形索引。

  2. 密集对应采样:利用光线追踪记录像素对应的3D点,在不同视图中找到落在同一3D点邻域内的像素对。

  3. 对比学习预训练:基于InfoNCE损失,鼓励匹配像素嵌入相似,不匹配像素嵌入相异。

  4. 少量标注微调:在有限的带标签3D模型上,对预训练网络添加分割头,结合交叉熵与辅助自监督正则化训练。

  5. 多视图加权投票聚合:计算每个视图的熵权重,将2D分割结果反投影到3D三角面片,进行加权多数投票,得到最终3D语义标签。

关键技术细节

1. 自监督对比学习
  • 嵌入网络Φ:基于 DeepLabV3+,输出 H×W×64 的像素级特征。

  • 正负样本构造

    • 正样本:同一3D点投影到两视图的像素对 (p,q)。

    • 负样本:同视图内其他像素与跨视图的不匹配像素。

  • InfoNCE损失
     

    • 温度系数τ = 0.07

    • 每对视图采样 ≥4K匹配点对,视图重叠 ≥15%

2. 微调与正则化
  • 监督损失:多视图交叉熵 ℓsl\ell_{sl}。

  • 辅助损失:保留 ℓssl\ell_{ssl} 正则项,权重λ = 0.001。

  • 优化策略:Adam, 初始LR=0.001, 验证损失饱和时LR衰减0.5,批量归一化 + ReLU + 双线性上采样。

3. 熵加权投票聚合
  • 视图权重

  • 最终标签
    lt=arg⁡max⁡c∈C∑I∈It,p∈tW(I,p)p(I,p)lt=argmaxcCIIt,ptW(I,p)p(I,p)

实验验证

数据集预训练方式微调方式mIoU (%)相对提升
PartNet (K=10)DenseCL (2D)2D CNN微调30.3+?
PointContrast (3D)3D CNN微调31.0+1.6
MvDeCor (Ours)2D自监督+微调35.9+4.0
RenderPeople (K=5,V=3)ImageNet (RGB)2D微调??
MvDeCor (RGB)2D自监督+微调??

应用与拓展

  • 3D内容编辑:细粒度分割可用于精确选取模型局部进行纹理、变形、物理仿真等处理。

  • 动画与影视制作:自动分割减少艺术家手工标注成本,加速流水线。

  • 虚拟试衣与电商:人像模型分割助力服装、配饰的精准试穿效果。

  • 机器人抓取与仿真:识别可抓取部件,实现更精细的操作策略。

结语与展望

MvDeCor 提出了将 2D 自监督对比学习与 3D 分割任务相结合的全新范式,显著提升了少样本条件下的细粒度分割性能。未来,可进一步探索:

  • 视图选择优化:自动化选择最具信息量的视角,降低冗余计算。

  • 3D-2D 互补学习:融合 3D 点云/体素的自监督损失,强化空间几何先验。

  • 跨域迁移:将 MvDeCor 应用于室内场景、医疗影像、遥感等多领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80250.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue——前端vue3项目使用汉字转拼音

在 Vue3 项目中,可以通过以下 第三方 JavaScript 包 实现汉字转拼音。这些包均兼容 Vue3,且无需依赖后端处理: 推荐方案 1. pinyin-pro 特点:功能强大、支持多音字、声调、拼音匹配、轻量级(~20KB)。安装…

批量统计PDF页数,统计图像属性

软件介绍: 1、支持批量统计PDF、doc\docx、xls\xlsx页数 2、支持统计指定格式文件数量(不填格式就是全部) 3、支持统计JPG、JPEG、PNG图像属性 4、支持统计多页TIF页数、属性 5、支持统计PDF、JPG画幅 统计图像属性 「托马斯的文件助手」…

LeetCode 每日一题 2025/5/5-2025/5/11

记录了初步解题思路 以及本地实现代码;并不一定为最优 也希望大家能一起探讨 一起进步 目录 5/5 790. 多米诺和托米诺平铺5/6 1920. 基于排列构建数组5/7 3341. 到达最后一个房间的最少时间 I5/8 3342. 到达最后一个房间的最少时间 II5/9 3343. 统计平衡排列的数目5…

pytest自动化测试执行环境切换的两种解决方案

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、痛点分析 在实际企业的项目中,自动化测试的代码往往需要在不同的环境中进行切换,比如多套测试环境、预上线环境、UAT环境、线上环…

visual studio 2015 安装闪退问题

参考链接: VS2012安装时启动界面一闪而过问题解决办法 visual studio 2015 安装闪退问题

RocketMQ Kafka区别

架构 ZooKeeper:管理 Broker 注册、分区 Leader 选举及消费者组状态。Broker:存储 Partition数据,每个 Partition 为独立日志文件。Producer/Consumer:通过 ZooKeeper获取路由信息,实现消息分发与消费。 NameServer&am…

MySQL进阶篇2_SQL优化、锁

文章目录 1 SQL优化1.1插入数据优化1.2主键优化页分裂页合并主键设计原则 1.3order by设计优化1.4group by设计优化小理解 1.5limit设计优化顺序IO和随机IO小疑惑 1.6count设计优化1.7update优化关于隐式事务事务的DML操作 锁全局锁表级锁表锁元数据锁意向锁 行级锁锁的释放条件…

如何测试 esp-webrtc-solution_solutions_doorbell_demo 例程?

软件准备 esp-webrtc-solution/solutions/doorbell_demo 例程 此例程集成了 WebSocket 传输视频流的应用 硬件准备 ESP32P4-Function-Ev-Board 环境搭建 推荐基于 esp-idf v5.4.1 版本的环境来编译此例程 若编译时出现依赖的组件报错,可进行如下修改&#xff…

TransmittableThreadLocal:穿透线程边界的上下文传递艺术

文章目录 前言一、如何线程上下文传递1.1 ThreadLocal单线程1.2 InheritableThreadLocal的继承困境1.3 TTL的时空折叠术 二、TTL核心设计解析2.1 时空快照机制2.2 装饰器模式2.3 采用自动清理机制 三、设计思想启示四、实践启示录结语 前言 在并发编程领域,线程上下…

【数据结构】——栈

一、栈的概念和结构 栈其实就是一种特殊的顺序表,其只允许在一端进出,就是栈的数据的插入和删除只能在一端进行,进行数据的插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的元素遵循先进后出LIFO(Last InFirst O…

大数据技术全景解析:Spark、Hadoop、Hive与SQL的协作与实战

引言:当数据成为新时代的“石油” 在数字经济时代,数据量以每年50%的速度爆发式增长。如何高效存储、处理和分析PB级数据,成为企业竞争力的核心命题。本文将通过通俗类比场景化拆解,带你深入理解四大关键技术:Hadoop、…

Android13 权限管理机制整理

一、概述 权限机制作为Android 系统安全的保证,很重要,这里整理一下 权限机制中framework 部分,selinux等其他的Android权限机制不在本次讨论范围内 二、个版本差异分类 Android13 Android12 Android11 及以下 抛开版本差异权限机制分为两大类 一类是之前apk在Android6.0…

MySQL的Order by与Group by优化详解!

目录 前言核心思想:让索引帮你“排好序”或“分好组”Part 1: ORDER BY 优化详解1.1 什么是 Filesort?为什么它慢?1.2 如何避免 Filesort?—— 利用索引的有序性1.3 EXPLAIN 示例 (ORDER BY) Part 2: GROUP BY 优化详解2.1 什么是…

awesome-digital-human本地部署及配置:打造高情绪价值互动指南

在数字化交互的浪潮中,awesome-digital-human-live2d项目为我们打开了本地数字人互动的大门。结合 dify 聊天 api,并借鉴 coze 夸夸机器人的设计思路,能为用户带来充满情绪价值的交互体验。本文将详细介绍其本地部署步骤、dify 配置方法及情绪…

[ctfshow web入门] web68

信息收集 highlight_file被禁用了,使用cinclude("php://filter/convert.base64-encode/resourceindex.php");读取index.php,使用cinclude("php://filter/convert.iconv.utf8.utf16/resourceindex.php");可能有些乱码,不…

计算机网络:深度解析基于链路状态的内部网关协议IS-IS

IS-IS(Intermediate System to Intermediate System)路由协议详解 IS-IS(Intermediate System to Intermediate System)是一种基于链路状态的内部网关协议(IGP),最初由ISO为OSI(开放系统互连)模型设计,后经扩展支持IP路由。它广泛应用于大型运营商网络、数据中心及复…

SEGGER项目

SystemView 查看版本, 查看SEGGER官网,release时间是2019-12-18日, 而3.12.0的版本日期是2020-05-04 #define SEGGER_SYSVIEW_MAJOR 3 #define SEGGER_SYSVIEW_MINOR 10 #define SEGGER_SYSVIEW_REV 0SEGGER EMBEDDED Studio 根据S…

Linux——Mysql索引和事务

目录 一,Mysql索引介绍 1,索引概述 1,索引的优点 2,索引的缺点 2,索引作用 3,索引分类 普通索引 唯一索引 主键索引 组合索引 全文索引 4,查看索引 5,删除索引 6&…

【Web】LACTF 2025 wp

目录 arclbroth lucky-flag whack-a-mole arclbroth 看到username为admin能拿到flag 但不能重复注册存在的用户 这题是secure-sqlite这个库的问题,底层用的是C,没处理好\0字符截断的问题 (在 Node.js 中,由于其字符串表示方式…

访问者模式(Visitor Pattern)详解

文章目录 1. 访问者模式概述1.1 定义1.2 基本思想 2. 访问者模式的结构3. 访问者模式的UML类图4. 访问者模式的工作原理5. Java实现示例5.1 基本实现示例5.2 访问者模式处理复杂对象层次结构5.3 访问者模式在文件系统中的应用 6. 访问者模式的优缺点6.1 优点6.2 缺点 7. 访问者…