CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计,到文本布局分析,微软亚洲研究院精选论文

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本周,人工智能领域最具学术影响力的顶级会议之一,CVPR 大会在美国西雅图举办。因此,这期的“科研上新”为大家带来了四篇微软亚洲研究院入选 CVPR 2024 的精选论文解读,涉及领域涵盖新视角图像合成、3D 人体姿态估计、视频编解码器、文本布局分析等多个相关主题。


本期内容速览

01. CVPR 2024 Highlight论文CoPoNeRF:统一对应点估计、相机姿态估计和神经辐射场重建,实现端到端双视图新视角合成

02. DCVC-FM:基于特征调制的视频编解码器

03. MVGFormer:用于3D人体姿态估计的多视角几何Transformers

04. 文本分组适配器:将文本布局分析能力装配在任意文本检测器上

CoPoNeRF:统一对应点估计、相机姿态估计和神经辐射场重建,实现端到端双视图新视角合成 (CVPR 2024 Highlight论文)

new-arrival-in-research-12-1

论文链接:https://arxiv.org/abs/2312.07246

在使用相机拍摄的多张二维图像进行三维神经辐射场(NeRF)建模和新视角渲染的过程中,传统的处理流程往往将其细分为三个子任务:图像特征点匹配、相机姿态估计与神经辐射场建模,并为每个子任务设计不同的算法模块以实现该子任务的目标。然而,由于每个算法模块都是独立设计的,每个子任务可能会引入不同的偏差,这就导致整个流程存在潜在的不一致风险。尤其在拍摄图片数量有限、相机姿态变化较大的情况下,该流程往往会使得最终新视角渲染效果欠佳。

针对这一问题,微软亚洲研究院的研究员们认识到,三个子任务之间共同追求的核心目标是从二维图像数据中精确解释并重建三维几何,因此,它们间的统一性和协同性亟待加强。在仅有两幅图像作为输入的情况下,研究员们提出了一个名为 CoPoNeRF 的创新框架。该框架无缝整合了二维图像对应点匹配、相机相对姿态估计与神经辐射场渲染,并利用这个具有统一性的框架,增强了各子任务间的协同性。CoPoNeRF 框架的设计强调的是三个任务共享一个统一的表征,且整个框架采用端到端的方式进行训练,旨在提升子任务间的协同性和整体模型的精度。

研究员们在真实世界的两个多样化室内和室外场景数据集上,对 CoPoNeRF 框架进行了广泛的评估。实验结果表明,该方法相较于先前的方法取得了明显改进,特别是在两幅图像视点变化较大、相机姿态难以精确获得的情况下新视角渲染效果获得极大提高。

图1:给定两幅可能存在极端视点变化的图像,CoPoNeRF 框架可以端到端地协同执行三个任务(2D 对应点估计、相机姿态估计和神经辐射场渲染),从而实现高质量的新视角图像合成。

图1:给定两幅可能存在极端视点变化的图像,CoPoNeRF 框架可以端到端地协同执行三个任务(2D 对应点估计、相机姿态估计和神经辐射场渲染),从而实现高质量的新视角图像合成。

DCVC-FM:基于特征调制的视频编解码器

new-arrival-in-research-12-3

论文链接:https://arxiv.org/abs/2402.17414

项目链接:https://github.com/microsoft/DCVC

相较于常用的基于残差编码的视频编解码器,基于条件编码的模型展现出了巨大的潜力,并在这几年取得了显著的发展。但在其向实用化迈进的过程中,仍存在两个亟待解决的关键问题:1. 考虑到不同带宽和存储的需求,如何设计一个能够支持可变码率的单一模型,且该码率范围需要足够大;2. 视频编解码器通过挖掘时域相关性以减小视频冗余,但这往往容易导致时域上的误差传播。因此,如何避免该误差传播造成的重建质量衰减。针对这两个问题,研究员们通过设计特征调制技术,提出了相应的解决方案。

为了实现大范围的可变码率,研究员们提出使用可学习的量化缩放器来调整每帧的隐特征(如图2右图所示)。在训练的过程中,研究员们设计了一种均匀的量化参数采样机制,以使得编解码器应对不一样的率失真权衡。

图2:DCVC-FM 的主框架图(左)和帧编码框架图(右)

图2:DCVC-FM 的主框架图(左)和帧编码框架图(右)

该训练机制可以帮助学习细粒度,并优化可调节的量化缩放器,从而能在一个很大的码率范围内,根据用户需求调节视频编码质量——可调的视频质量范围将从之前的3.8 dB增长到11.4 dB。另外,DCVC-FM 能够动态调节视频中的每帧质量,该功能也使得模型可以应对复杂易变的网络带宽环境,图3便展示了 DCVC-FM 在应对变化带宽方面的能力。

图3:码率控制示意

图3:码率控制示意

针对时域误差传播问题,已有的模型普遍采用频繁插入高质量帧内编码帧的方法来切断误差传播。尽管该方法可以有效遏制误差的扩散,但由于帧内编码的效率极低,整体的视频编码效率将显著降低。为此,研究员们设计了一种特征更新机制——当相邻帧的特征在时域传播时,研究员们将周期性地使用辅助性的特征提取器去调整并更新被传播的特征。这一机制使得 DCVC-FMDCVC-FM 在处理非常长的视频时仍能保持极高的压缩效率。如图4所示,DCVC-FM 在压缩性能方面已经超过了正在研发的下一代传统视频编码器标准的原型 ECM。

图4:压缩性能对比

图4:压缩性能对比

MVGFormer:用于3D人体姿态估计的多视角几何Transformers

new-arrival-in-research-12-7

论文链接:https://arxiv.org/abs/2311.10983

项目链接:https://github.com/XunshanMan/MVGFormer

在计算机视觉和机器学习领域,3D 人体姿态估计是一项具有挑战性的任务,因为它要求算法能够从图像或视频中准确地预测出人体关节的 3D 空间位置。这项技术对于深入理解人类行为、增强现实、虚拟现实、游戏动画以及人机交互等领域具有重要的应用潜力。然而,现有的基于深度学习的方法在处理多视角数据时,常常面临遮挡问题和视角变化所带来的挑战,特别是在准确解析几何信息方面仍显不足。

尽管目前的研究已经通过使用神经网络,在 3D 人体姿态估计上取得了进步,但这些方法在多视角设置中,尤其是在训练阶段未遇到的新视角和环境条件下,其性能表现往往不尽如人意。此外,现有的基于 Transformers 的端到端学习方法虽然能够处理遮挡问题,但在新场景下的泛化性能往往较差。因此,如何在保持端到端学习优势的基础上,提升模型对于新视角和遮挡情况的泛化能力,是当前研究面临的关键课题。

为了解决这个问题,研究员们提出了一种新的方法,其主要思想可以概括为以下三个部分:

1)混合模型设计:研究员们提出了一种新颖的混合模型 MVGFormer,该模型结合了几何模块和外观模块。几何模块负责处理所有与视角相关的 3D 任务,而外观模块则专注于从图像信号中估计 2D 姿态。

2)迭代细化过程:MVGFormer 通过迭代的方式,交替使用外观模块和几何模块来细化 2D 和 3D 姿态。外观模块基于图像特征预测2D姿态,几何模块利用三角测量法从 2D 姿态中恢复 3D 姿态。

3)端到端训练与评估:MVGFormer 支持端到端的训练,因此研究员们能通过一系列训练目标和损失函数来优化模型。在训练过程中,模型将学习如何准确地从一组初始化查询中重建 3D 人体姿态。

图5:MVGFormer 模型结构

图5:MVGFormer 模型结构

实验结果表明,相较于目前领域内的前沿方法,MVGFormer 在多种测试条件下均展现出了卓越的性能,特别是在那些训练阶段未曾遇到的新视角下,其表现尤为突出。这一成就主要得益于 MVGFormer 强大的泛化能力,即便在全新的视角条件下,它仍能保持对 3D 人体姿态的高精度估计,对于需要在多种视角下理解和预测人体动作的应用场景具有重要意义。

图6:MVGFormer 将初始化查询恢复出 3D 人体姿态的过程

图6:MVGFormer 将初始化查询恢复出 3D 人体姿态的过程

此外,MVGFormer 的框架还具有通用性,可以应用于其他关键点估计任务,如形状、手部和面部估计。未来,研究员们也可能会探索将该架构扩展到基于视频的系统中,以利用时间信息实现更稳健的追踪。

文本分组适配器:将文本布局分析能力装配在任意文本检测器上

new-arrival-in-research-12-10

论文链接:https://arxiv.org/abs/2405.07481

随着深度学习技术的发展,场景文本检测和识别领域已取得了重大进步。然而,如何将检测到的众多文本区域进行符合语义的分组并构建段落结构——场景文本布局分析问题,仍面临着诸多挑战。这些问题包括但不限于标注数据集缺乏、较难利用已有的文本检测器、缺少端到端模型等。

研究员们发现,场景文本布局分析的结果极大地依赖于文本检测的准确性,但现有的文本布局分析方法要求从头开始联合文本布局分析,与文本检测器进行联合训练,这种方法往往导致文本检测器训练不充分。

基于这一发现,研究员们利用在大量文本检测数据集上训练得到的预训练文本检测器,成功解决了因网络结构差异和输出格式不同所带来的挑战,并且让模型在冻结所有原有权重的情况下能够正常进行文本布局分析。最终,研究员们提出了通用的文本分组适配器(Text Grouping Adapter,TGA),显著提升了文本布局分析性能,并大幅加速了训练流程。

图7左图展示了装配了 TGA 的模型整体框架,其中原文本检测器模块可选择在训练过程中冻结所有权重。右图则展示了 TGA 的内部结构:首先,文本区域将被转化成实例掩码,从而得到文本实例特征;接着,预测文本组合掩码,确保属于同一组的文本实例具有相似的特征;最终,输出文本实例的关系矩阵,以此形成文本组合。

图7:装配有 TGA 的模型整体框架(左)和 TGA 内部结构(右)

图7:装配有 TGA 的模型整体框架(左)和 TGA 内部结构(右)

具体而言,TGA 包括两个重要模块:文本区域特征组装模块(Text Instance Feature Assembling)和文本组合掩码预测模块(Group Mask Prediction)。文本区域特征组装模块主要把不同文本检测器的输出统一成为文本区域掩码的形式,并且通过掩码和图片像素嵌入来组装成文本区域特征,这些特征随后会被送入文本组合掩码预测模块以及最终的文本关系预测模块。而文本组合掩码预测模块则通过预测文本组合的共同掩码,确保属于同一文本组合的文本区域具有相似的特征,从而在文本实例的关系矩阵中预测出正确的关系。

实验结果表明,TGA 能与多种不同网络结构与输出格式的文本检测器兼容。此外,TGA 还能够与端到端文本识别模型(Text Spotting Model)结合使用,实现文本检测、文本识别以及文本布局分析结果的同步输出。通过冻结文本检测器,模型能在仅有之前工作13%的可训练参数的情况下,仍能够得到领先的文本检测和文本布局分析结果。研究员们针对 TGA 损失函数的一系列消融实验进一步表明,TGA 有效解决了正负样本不平衡的问题。

文本布局分析背后的核心问题在于,视觉模型如何准确判断视觉对象间的关系以及它们在场景中的拓扑结构。未来,研究员们将持续关注这一问题,并在 Windows UI 场景和自然图像分析方面进行更加深入的探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/857291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python如何判断图片是否为空

如下所示: import cv2im cv2.imread(2.jpg) if im is None:print("图像为空") # cv2.imshow("ss", im) # cv2.waitKey(0)

编码规则UTF-8 和 UTF-16的区别

UTF-8 和 UTF-16 的设计背景与历史 为了更好地理解 UTF-8 和 UTF-16 的设计选择和背景,以下是两种编码方案的历史、设计动机和它们在计算机科学中的应用。 Unicode 的背景 在 Unicode 之前,不同的字符集和编码方案使得跨平台和国际化的文本处理变得复…

2024年AI+游戏赛道的公司和工具归类总结

随着人工智能技术的飞速发展,AI在游戏开发领域的应用越来越广泛。以下是对2024年AI+游戏赛道的公司和工具的归类总结,涵盖了从角色和场景设计到音频制作,再到动作捕捉和动画生成等多个方面。 2D与3D创作 2D创作工具:专注于角色和场景的平面设计,提供AI辅助的图案生成和风…

C++之thread_local变量

目录 1.C 的存储类型 1.1.存储周期(Storage duration) 1.2.存储类型说明符(Storage class specifiers) 1.3.存储类型说明符与存储周期的关系 2.thread_local简介 3.thread_local 应用 3.1.thread_local 与全局变量 3.2.th…

粘包拆包服务器

服务器&#xff1a; 创建个控制台应用 创建Server.cs internal class Server{TcpListener listen;public Server(IPAddress ip,int port) {listen new TcpListener(ip, port);}public void Start(){listen.Start(100);StartConnect(); }Dictionary<string,TcpClient>…

【2024德国工作】外国人在德国找工作是什么体验?

挺难的&#xff0c;德语应该是所有中国人的难点。大部分中国人进德国公司要么是做中国业务相关&#xff0c;要么是做技术领域的工程师。先讲讲人在中国怎么找德国的工作&#xff0c;顺便延申下&#xff0c;德国工作的真实体验&#xff0c;最后聊聊在今年的德国工作签证申请条件…

秀米排版的一些技巧

1.正文一般16字号 、默认字体、格式首行缩进 2.最后署名&#xff08;居中&#xff09; 文丨1234 图丨1234 排版丨1234 指导老师 | 1234 审核 |1234 信息学院研究生会宣传中心 宣 3.不必要的文字要删除 以及不必要的排版的画面 简简单单就ok 4.然后图片文字按顺序 5.最开始有个框…

Android AlarmManager 设定过去的时间会触发事件

Android AlarmManager 设定过去的时间会触发事件 在使用 AlarmManager 做每日定时任务时&#xff0c;发现如果设定的时间小于当前的系统时间&#xff0c;那么设定后会立刻收到一次定时任务回调。 我们设想的是设定的时间应该是明日的这个时间&#xff0c;但是如果打印出设定的…

【八股系列】说一下mobx和redux有什么区别?(React)

&#x1f389; 博客主页&#xff1a;【剑九 六千里-CSDN博客】 &#x1f3a8; 上一篇文章&#xff1a;【介绍React高阶组件&#xff0c;适用于什么场景&#xff1f;】 &#x1f3a0; 系列专栏&#xff1a;【面试题-八股系列】 &#x1f496; 感谢大家点赞&#x1f44d;收藏⭐评…

现代数字信号处理及其应用-常见结论

现代数字信号处理及其应用-常见结论 本文的结论均摘抄自 何子述、夏威等编著&#xff0c;《现代数字信号处理及其应用》&#xff0c;清华出版社出版。 解析信号信号预包络&#xff1b;基带信号信号复包络。BT法&#xff08;自相关谱估计法&#xff09;&#xff1a;间接法&…

双例集合(二)——双例集合的实现类之HashMap容器类

双例集合的常用实现类有HashMap和TreeMap两个&#xff0c;通过这两个类我们可以实现Map接口定义的容器&#xff0c;一般情况下使用HashMap容器类较多。 HashMap容器类是Map接口最常用的实现类&#xff0c;它的底层采用Hash算法来实现&#xff0c;这也就满足了键key不能重复的要…

Python:调用zabbix api,删除部分被监控主机

调用zabbix api&#xff0c;删除部分被监控主机。 简介代码部分配置文件config.jsonnamefile.txt 简介 当新主机上线时&#xff0c;我们可以通过自动注册功能&#xff0c;在zabbix中批量添加这些新主机。那当有主机需要下线时&#xff0c;我们又该如何在zabbix中批量删除这些主…

揭秘!速卖通、敦煌网、国际站出单背后的黑科技:自养号测评技术

在竞争激烈的跨境电商平台上&#xff0c;如亚马逊、速卖通、Lazada、Shopee、敦煌网、Temu、Shein、美客多和阿里国际等&#xff0c;稳定出单成为每位卖家共同追求的目标。为了实现这一目标&#xff0c;卖家需要从产品选择、运营策略和客户服务等多个维度进行全面考量&#xff…

华为重磅官宣:超9亿台、5000个头部应用已加入鸿蒙生态!人形机器人现身 专注AI芯片!英伟达挑战者Cerebras要上市了

内容提要 华为表示&#xff0c;盘古大模型5.0加持&#xff0c;小艺能力全新升级。小艺智能体与导航条融为一体&#xff0c;无处不在&#xff0c;随时召唤。只需将文字、图片、文档“投喂”小艺&#xff0c;即可便捷高效处理文字、识别图像、分析文档。 正文 据华为终端官方微…

采用string 及random库随机生成长度为32的字符串

要使用Python的string和random库来生成一个长度为32的随机字符串&#xff0c;其中包含大小写字母和数字&#xff0c;你可以按照以下方式编写代码&#xff1a; import string import random def generate_random_string(length32): """生成一个指定长度的随…

JavaWeb阶段学习知识点(一)

【参考视频】https://www.bilibili.com/video/BV1m84y1w7Tb?p=167&vd_source=38a16daddd38b4b4d4536e9c389e197f SpringBoot项目的创建和接口配置 做一个springboot项目,从创建项目到实现浏览器访问localhost:8080/hello返回字符串hello world的全流程 1. 创建项目 idea新…

从二元一次方程组到二阶行列式再到克拉默法则

目录 引言1 二元一次方程组什么是二元一次方程组&#xff1f;解法概述示例1. 操作步骤2. 消元法 2 二阶行列式引入行列式行列式定义示例计算 3 克拉默法则什么是克拉默法则&#xff1f;克拉默法则公式使用克拉默法则求解 4 总结 引言 在数学中&#xff0c;线性代数提供了一套强…

Laravel 高级:了解$loop

Blade 提供 foreach、while、for 和 forelse 等指令来与 PHP 循环配合使用。 您知道吗... 这些指令中有一个方便的 $loop 变量&#xff0c;它指示当前循环迭代&#xff1f;在本文中&#xff0c;我们将探索 $loop 和 loop 指令。&#x1f60e; 使用$loop比foreach更深入 该for…

上海科技博物馆超薄OLED柔性壁纸屏应用方案

产品&#xff1a;2组55寸OLED柔性屏2x1 特点&#xff1a;嵌入墙体&#xff0c;与空间装饰融入一体 用途&#xff1a;播放文物展示 一、项目背景 上海科技博物馆作为展示科技与文化的交汇点&#xff0c;一直致力于为观众提供沉浸式的参观体验。为了提升文物展示的现代化和科技感…

芯片验证分享系列总结及PPT分享

大家好&#xff0c;我是谷公子。花了将近两个月时间&#xff0c;《芯片验证分享》这一系列视频分享已经更新完了&#xff0c;内容涵盖了名词解释、芯片验证原则、激励开发、代码审查以及芯片调试。这一系列视频主要侧重于芯片验证理论的分享&#xff0c;希望可以帮助大家构建芯…