文章目录
- 论文解决的问题
- 提出的算法以及启发点
论文解决的问题
首先这是 Self-Supervised 3D Human mesh recovery from a single image with uncertainty-aware learning (AAAI 2024)的论文笔记。该文中主要提出了一个自监督的framework用于人体的姿态恢复。主要是解决了现有的方法对大型数据集的依赖。
提出的算法以及启发点
论文总体的框架其实相对比较简单
大概思路主要是集中再学习深度与关节之间的连续性。首先深度和2D关节的提取使用的方法都相对较老。整体的自监督模式也之前的方法其实很类似,就是通过2D 图像提取人体的特征,比如关节特征,然后预测2.5D的特征,比如深度,为连接2D-3D打下基础。然后依赖SMPL这样的参数模型将2D 和2.5D特征转移到3D 空间中。然后将3D的参数模型,2D化(提取关节点,和深度图。)然后与图片预测的关节点和3D 图在 L2 loss的监督下,进行学习。
本文中提到了一个新的概念,就是使用相邻关节点的深度差距来作为consistancy的一个评判标准是相对比较新的一个概念。 在3D到2D的投影过程中,关节长度(2D骨骼长度)与深度差距(Depth Discrepancy, DD)之间的关系存在反比趋势, 当骨骼在3D空间中平行于图像平面(即深度差DD≈0)时,其2D投影长度最大, 当骨骼朝向或远离相机(DD增大)时,2D投影长度会因透视缩短而变小。例如,若手臂完全朝向相机(DD很大),2D图像中手臂会显得非常短(甚至接近一个点)。通过这个约束来作为自监督学习的基础。
对我当前的研究有什么启发。我当前通过生成模型将单目照片变成几何连续的多视角照片。用于提供更加稳定和准确的2D 特征,也可从这些2D图像中提取出更加稳定的3D cues,用于之后2D-3D 的桥梁。是否使用本文的方式来修正人体姿态的同时修正一些单视角的语义偏差?引入关节和深度的加权不确定性损失来抑制一些高不确定性的输出。也是抑制人体重建中 不可能姿势的出现。 该思想可尝试泛化到语义层面。