互动网站建设的主页网络小说写作网站
news/
2025/9/24 0:17:20/
文章来源:
互动网站建设的主页,网络小说写作网站,做网站的积木式编程,珠海专业医疗网站建设目录
人体姿态识别概述
论文框架
HPE分类
人体建模模型
二维单人姿态估计
回归方法
目前发展
优化
基于热图的方法
基于CNN的几个网络
利用身体结构信息提供构建HPE网络
视频序列中的人体姿态估计
2D多人姿态识别
方法
自上而下
自下而上
2D HPE 总结
数据集…目录
人体姿态识别概述
论文框架
HPE分类
人体建模模型
二维单人姿态估计
回归方法
目前发展
优化
基于热图的方法
基于CNN的几个网络
利用身体结构信息提供构建HPE网络
视频序列中的人体姿态估计
2D多人姿态识别
方法
自上而下
自下而上
2D HPE 总结
数据集和评估指标
2D HPE 数据集
2D HPE 评价指标
2D HPE 方法性能的比较
单人2D HPE
多人2D HPE
未来展望 人体姿态识别概述
应用模块人机交互、运动分析、增强现实、虚拟现实
目的精确的估计关节位置和姿势信息
存在问题姿势变化、遮挡、尺度变化、训练数据不足、深度模糊
论文框架 HPE分类
2D HPE通过在2D图像或视频中估计姿势。
3D HPE三维空间中完成更复杂的任务尤其是真实环境中。
基于单人 1. 回归基于深度学习回归直接将输入图像到人体关节坐标进行映射 2. 身体部位检测 (1)生成关键点关节的热图用于身体部位定位 (2)将检测到的关键点组装成整个身体的姿势或骨架
基于多人 1. 自上而下先检测人然后利用单人HPE预测每个人的关键点来构造人体姿势 2. 自下而上先检测身体关键点然后将关键点组合成单独的姿势不知道人数
人体建模模型
要点从输入数据中提取关键点和特征
方法N关节刚性运动学模型 补充刚体——不变形的物体 刚体模型 将人体看作刚体即不变形的物体通过关节和链接建立关系以模拟关节的运动。这种模型适用于对关节运动的基本仿真。 常用模型
1运动学模型基于骨架模型 / 运动链模型 优点图形表示灵活直观
局限性表示纹理和形状信息方面存在局限性
2平面模型利用近似人体轮廓的矩形表示
3体积模型 二维单人姿态估计
1. 应用背景 用于定位单人图像中的人体关节位置。当输入的图像包含多个人时通常会先对先对图像进行裁剪确保每个裁剪的部分只包含一个人通过上半身检测器 / 全身检测器自动完成
2. 单人姿势估计方法
i. 回归方法通过学习从输入图像到人体关节位置或人体模型参数的映射。这种方法的目标是直接回归出人体关键点的坐标或其他相关参数——关键点坐标映射
ii.基于热图方法(heatmap)旨在预测身体部位和关节的近似位置通过热图来表示这些位置。热图是一种表示其中图像上的每个点都对应于人体的某个部位颜色或强度表示该部位的置信度。
回归方法
目前发展
1. DeepPose——基于AlexNet的级联深度神经网络回归
2. 端到端的回归方法采用Soft-argmax函数将特征映射转为关节坐标。 soft-argmax是一种允许通过概率分布的加权平均来计算具有最大概率的位置的函数
3. Transformer-based casecade network——基于transformer的级联网络用于回归人体关键点。通过自我注意力机制self-attention mechanism来捕捉关节之间的空间相关性和外观信息
4. Compositional pose regression结构感知回归方法——基于ResNet-50的结构感知回归方法——组合姿态回归采用人体信息和姿态结构的重新参数化的基于骨骼的表示方法
5. RLELog-likelihood Estimation——正则化流模型用于捕捉关节位置的分布。目的是通过残差对数似然估计来找到优化的参数
优化
关键点特征质量
策略多任务学习共享表示——学习更好的特征表示。多任务学习通过在相关任务之间共享表示例如姿势估计和基于姿势的动作识别使模型能够更好地泛化到原始任务姿势估计。
1. 异构多任务框架 包含两个任务 i. 第一个任务通过回归器从完整图像中预测关节坐标。 ii.第二个任务通过使用滑动窗口从图像块中检测身体部位。 通过在两个不同的任务之间共享表示增强模型在姿势估计任务上的性能。
2. 双源CNN模型DS-CNN 包含两个任务 i. 第一个任务是关节检测用于确定图像块是否包含人体关节。 ii.第二个任务是关节定位用于找到图像块中关节的确切位置。 损失函数 每个任务对应一个损失函数两个任务的结合导致了性能的提升。
基于热图的方法
由每个关节点位置上添加2D高斯核生成2D热图
假设有K个关键点则有K个热图{H1H2...HK}热图中的每个像素值Hi(x, y)表示关键点位于位置(x, y)的概率。
训练过程使用姿态估计网络通过最小化预测热图与目标热图之间的差异均方误差 MSE来进行训练
与关节点坐标相比热图保留了空间位置信息同时可以使训练过程更加平滑。
基于CNN的几个网络
1. CPMConvolutional Pose Machines采用多阶段处理每个阶段的卷积基于前一阶段生成的2D置信图生成并产生逐渐精炼的身体部位位置预测
2. 堆叠沙漏SHGstacked hourglass由一个编码器和一个对应的解码器组成其中编码器负责从输入图像中提取特征解码器将这些特征映射回姿态估计的输出。网络采用自下而上和自上而下重复处理先通过自下而上的阶段进行多尺度的特征提取然后通过自上而下的阶段进行姿态的预测。为了捕捉每个尺度的信息SHG网络由连续的池化和上采样层的步骤组成使得网络可以捕捉不同尺度的信息。基于此进行了一些升级
(1) 沙漏残差单元 HRUsHourglass Residual Units将残差单元扩展为具有更大感受野的滤波器的侧分支来捕捉来自不同尺度的特征
(2) 金字塔残差模块 PRMPyramid Residual Module替代了SHG中的残差单元从而增强深度CNN尺度的不变形
3. 高分辨率网络 HRNetHigh-Resolution Network引入高分辨率子网络网络之间并行连接每个子网络负责处理不同分辨率的信息具有可以保留更多细节信息的优点。基于此进行了一系列升级
Lite-HRNet——轻量级HRNet设计了条件通道加权块以便在通道和分辨率之间交换信息在保证了性能的同时减少了网络的计算复杂性
4. 生成对抗网络GANs将高置信度的预测与低置信度的预测进行区分从而推断被遮挡身体部位的姿势。GANs作为一个深度学习模型主要是通过两个网络模型之间的对抗学习实现生成新的数据样本。GANs在HPE上的应用主要如下 1姿态生成GANs可以生成逼真的姿势这有助于提高对于人体姿态的生成精度。 2置信度估计GANs可以用于估计预测结果的置信度。通过引入生成器和判别器的对抗学习可以使生成器更好地区分真实姿态和不合理的姿态。生成器生成的姿势如果被判别器成功辨别为真实姿态可能会提高对这一姿态的置信度。 3遮挡部位的估计GANs被用于处理遮挡的情况即当部分身体被遮挡时模型可以通过生成对抗学习来推断被遮挡部位的姿态。生成器生成的姿态可以帮助填充遮挡的部分从而提高遮挡区域的姿态估计精度。
后续又针对这一网络进行了相关的改进 1基于一个结构感知的条件对抗网络 Adversarial PoseNet包含一个基于沙漏网络的姿势生成器和两个鉴别器用于区分合理的身体姿势和不合理的姿势 2基于对抗学习的网络其中包含两个堆叠的沙漏网络分别用作鉴别器和生成器二者共享相同的结构。生成器估计每个关节点的位置而鉴别器则区分地面实况热图和预测热图。 3对抗性数据增强网络通过将HPE网络视为鉴别器并使用增强网络作为生成器来执行对抗性增强从而优化数据增加和网络训练。其中生成器负责生成与原始数据相似但有一些差异的合成数据以扩充训练数据的多样性鉴别器负责评估一个给定的数据样本是真实数据还是由生成器生成的伪数据。生成器和鉴别器之间进行对抗性学习即生成器试图生成更逼真的伪样本而鉴别器试图辨别真实样本和伪样本之间的区别。这个对抗学习的过程促使生成器生成更加真实的样本从而提高了数据增强的效果。对抗性数据增强网络可以帮助模型更好地处理各种变换、遮挡和复杂场景提高模型的鲁棒性和性能。
利用身体结构信息提供构建HPE网络
1. 端到端的CNN框架End-to-end CNN framework通过考虑人体部位之间的空间和外观一致性来发现负样本
2. 结构化的特征级学习框架Structured feature-level learning framework通过结构化的学习方法推理人体关节之间的相关性通过捕捉人体关节信息来改善姿态估计的准确性
3. 多尺度结构感知神经网络Multi-scale structure-aware neural network结合了多尺度监督、多尺度特征融合、结构感知损失信息方案和关键点遮罩训练方法。该网络能够在复杂场景下更好地理解人体姿态
4. 基于沙漏网络的监督网络Hourglass-based supervision network用于描述人体部位之间的关系学习了人体的组合模式信息能更准确的估计人体姿态
5. 基于部位的分支网络Part-based Branches Network引入基于部位的学习策略学习特定于每个部位组的表示而不是所有部位的共享表示。该网络结构更加灵活能够更好地适应不同部位之间的差异性
视频序列中的人体姿态估计
1. 双分支CNN框架利用帧对中的颜色和运动特征来建立一个表达力强的时空模型用于进行HPE。
2. 通过使用光流来对齐相邻帧预测的热图以利用多个帧的时间上下文信息。 Tips: 光流——指在连续帧之间观察到的像素点的运动模式描述了图像中每个像素点在时间上的位移或运动方向光流可以用来表示图像序列中的物体运动轨迹。在计算机视觉中光流通常通过分析相邻帧之间的像素值的变化来估计得到。通过比较像素点在两个连续帧之间的亮度差异来确定他们的运动方向和轨迹。在HPE中通过计算光流可以推断出人体在连续帧之间的运动从而提高姿势估计的准确性。 3. 带有长短期记忆的循环结构捕捉来自不同帧的时间几何一致性和依赖性从而加快HPE网络的训练时间
4. 关键帧提议网络用于从帧中捕获空间和时间信息并使用人体姿势插值模块来实现高效的基于视频的HPE Tips人体姿势插值模块Pose Interpolation Module——基于视频的人体姿势估计HPE的技术可以在两个连续帧之间预测人体姿势从而实现对视频中人体运动的连续跟踪和姿势估计。 2D多人姿态识别
与单人HPE相比多人HPE需要确定人数和位置并需要考虑如何为不同人的关键点分组
方法
自上而下使用现成的人物检测器将视频中的多人划分成单人将每个人用小框框框起来每个框对应一个人然后将单人姿势估计器应用于每个人框以生成多人姿势
自下而上首先定位一张图像中所有的身体关节然后将其分组为单个对象。主要有两个步骤① 身体关节检测提取局部特征和预测身体关节候选项② 为单个身体组装关节候选即使用部分关联策略将关节候选项分组来进行姿势表示 一般来说自下而上的方法计算速度比自上而下的方法更快因为不需要分别检测每个人的姿势 自上而下
当前已有技术模块
1. 在ResNet中添加几个反卷积层用于生成高分辨率表示的热力图[259]
2. Graph-PCNN基于图的与模型无关的仅有两个阶段的框架。它包括一个定位子网络用于获取粗略的关键点位置以及一个图姿势细化模块用于获得经过优化的关键点定位表示[246]
3. 多阶段网络包含一个残差步骤网络模块RSN通过高效的层内特征融合策略学习精细的局部表示以及一个姿势细化模块PRM在特征中找到局部和全局表示之间的权衡。
在遮挡和阶段场景下估计姿势研究
在多人情况下很容易出现肢体重叠的情况这样使用自上而下的方法第一步就很难实现。为此
1. 基于卷积姿势机的姿势估计器来估计重叠起来的人进行关节候选估计使用整数线型规划来解决关节与人员关联问题并在存在严重遮挡的情况下获得人体姿势[78]
2. 区域多人姿势估计RMPE提高复杂场景中HPE的性能。该框架具有三个部分对称空间变换网络用于检测不准确边界框内的单个人区域参数化姿势非最大抑制用于解决冗余检测问题和姿势引导提议生成器用于增强训练数据[55]
3. 采用两阶段架构结合Faster R-CNN人体检测器用于为候选人体创建边界框和关键点估计器使用热图偏移聚合来预测关键点位置[180]
4. 级联金字塔网络CPN包括两部分GlobalNet一个特征金字塔网络用于预测不可见的关键点和RefineNet一个网络用于将GlobalNet的所有特征级别与关键点挖掘损失集成在一起。该网络在预测遮挡关键点方面表现良好[29]
5. 开发了一个遮挡姿势估计和校正模块以及一个遮挡姿势数据集以解决拥挤姿势估计中的遮挡问题[199]
6. 提出了一个关键点对应框架利用前一帧的时间信息在遮挡场景中恢复丢失的姿势。该网络使用自监督进行训练以改进稀疏标注视频数据集上的姿势估计结果[237]
7. 设计了两个模块通道混洗模块和空间与通道注意力残差瓶颈以实现通道和空间信息增强以在遮挡场景下更好地进行多人HPE[219]
基于Transformer在HPE上的研究
Transformer中的注意力机制可以捕获预测关键点的长距离依赖性和全局信息这比CNN更强大。为此
1. TokenPose纯Transformer-based模型通过使用token表示捕捉约束线索和视觉外观关系[125]
2. HRFormer高分辨率Transformer通过将HRNet中的块与Transformer模块进行交换改善了内存和计算效率[277]
3. Token-Pruned Pose TransformerPPT:定位人体部位使模型能够高效地估计多视角姿态[150]
4. 基于注意机制的完全端到端框架能够直接估计感知实例的身体姿势[216]
视频中的多帧姿势估计
可以利用视频序列中的时间信息来促进姿势估计。
1. PoseWarper该网络旨在减少视频帧标记的成本通过改进帧之间的标签传播并利用稀疏注释进行训练。
2. DCpose用于多帧HPE旨在减轻视频帧之间的运动模糊和姿势遮挡。主要包含三个模块姿势时序合并器、姿势残差融合器和姿势校正网络利用帧之间的时间信息进行关键点检测。
上面两个方法并不能充分利用相邻帧的信息。为此
3. 引入一个分层对齐框架用于减轻两个帧之间不对齐上下文的聚合[140]
自下而上
两阶段自底向上方法的发展和改进
1. DeepCut基于Fast R-CNN的身体部位检测器是最早的两阶段自底向上的方法之一。首先检测所有身体部位的候选项然后使用整数线性规划ILP标记每个部位并通过ILP组装这些部位形成最终的姿势。缺点是计算开销大[192]
2. DeeperCut通过应用更强的身体部位检测器、改进的增量优化策略和图像条件的配对项来提高性能并加快速度[76]
3. OpenPose使用卷积姿势机来通过热图预测关键点坐标并使用部件关联场(PAFs)将关键点与每个人进行关联。OpenPose大大加速了自底向上的多人姿势估计的速度[16] TipsPAFsPart Affinity Fields是一组二维矢量场用于表示人体关节之间的亲和关系。每个关节对应的 PAF 是一个矢量图每个矢量场对应一个关节到其他关节的连接。这些矢量表示了关节之间的方向和连接强度。PAFs 的作用是帮助将图像中的关键点例如头、肩膀、手臂等连接成完整的人体姿势。 随后又基于OpenPose通过向PAF中添加冗余边来增加关节之间的连接改进了OpenPose结构并获得了比基线方法更好的性能[315]
4. PifPafOpenPose在处理高分辨率图像上效果很好但是在低分辨率图像和遮挡场景下的性能较差。为此引入PifPaf的方法使用部位强度场预测身体部位的位置和部位关联场表示关节之间的关联来解决这个问题[104]
5. 单阶段深度网络受到OpenPose和堆叠沙漏结构的启发引入单阶段深度网络同时实现姿势检测和组别分配[170]
6. 可微分的分层图组合方法学习人体部分的分组
7. Higher Resolution Network基于单阶段深度网络和HRNet引入了HRNet的扩展通过反卷积高分辨率热图来解决自底向上多人姿势估计中的尺度变化挑战[31]
多任务结构在自底向上多人HPE中的应用
1. PersonLab将姿势估计模块和人物分割模块组合在一起进行关键点检测和关联。PersonLab包括短程偏移细化热图、中程偏移预测关键点和长程偏移将关键点分组成实例[179]
2. MultiPoseNet包括姿势残差网络可以同时进行关键点预测、人体检测和语义分割任务。通过将这些任务结合在一起MultiPoseNet能够更全面地理解图像中的人物姿势[99]
上述两个方法在处理人体尺度变化方面存在挑战为此
3. SAHR通过自适应地优化关节的标准偏差提高了对不同人体尺度和标注模糊的容忍度[146]
2D HPE 总结
2D HPE 依然面临的几个挑战
1 .在存在较大遮挡例如拥挤场景下对个体的可靠检测自上而下的2D HPE方法中的人物检测器可能无法准确识别重叠的人体边界。同样自底向上的方法在遮挡场景中更难进行关键点的关联。
2. 计算效率虽然一些方法如OpenPose可以在特定硬件上实现接近实时的处理速度但仍然难以将这些网络应用到资源受限的设备上。实际应用如游戏、增强现实和虚拟现实需要在商用设备上使用更高效的HPE方法以提供更好的用户交互体验。
3. 针对稀有姿势的训练数据集的有限性虽然当前的2D HPE数据集如COCO数据集对于常见姿势如站立、行走、奔跑来说已经足够大但对于不寻常的姿势如摔倒的训练数据仍然有限。数据不平衡可能导致模型偏见在这些姿势上表现较差。因此开发 有效的 数据 生成或增强 技术 来生成额外的姿势数据以训练更鲁棒的模型将是必要的。 数据集和评估指标
2D HPE 数据集 1. Max Planck Institute for Informatics (MPII) Human Pose Dataset马普莱克计算机科学研究所人体姿势数据集。数据集包含了25000个姿势注释图像其中包括超过40000个不同的带有注释的身体关键点例如头部、肩膀、手肘、手腕、臀部、膝盖和脚踝等的个体。图像涵盖了不同的场景包括室内外、日常活动、体育运动等。它是一个多人姿势估计数据集每个图像中可能包含多个人物。此外该数据集还提供了丰富的姿势多样性包括不同的动作、姿态和视角。MPII中的图像适用于2D单人或多人HPE。
2. Microsoft Common Objects in Context (COCO) DatasetCOCO是一个用于目标检测、图像分割和人体姿势估计的大型公共数据集也是目前使用最广泛的大规模数据集。它有超过33万张图片和20万个标有关键点的主题每个人都标有17个关节。与其他许多数据集相比COCO 数据集具有更高的注释精度和更广泛的注释范围。它不仅提供了目标检测和图像分割任务的注释信息还提供了每个人体关键点的精确位置和可见性信息。
3. COCO-WholeBody Dataset专用于HPE的带有全身注释的数据集是对COCO数据集的扩展。除了COCO数据集中的人体关键点注释外COCO-WholeBody数据集还提供了更全面的全身人体姿势数据包括额外的关键点如脖子、膝盖、脚踝等旨在为全身人体姿势估计算法的研究提供更丰富和详细的数据以满足对全身姿势估计精度和鲁棒性的需求。
3. PoseTrack Dataset主要用于HPE的视频中关节跟踪的大规模数据集包括在拥挤环境中的被遮挡和截断的身体部位。PoseTrack数据集有两个版本PoseTrack2017包含514个视频序列和16219个姿势注释其中250个用于训练序列50个作为验证序列214个作为测试序列和PoseTrack2018包含1138个视频序列和153615个姿势注释其中593个用于训练170个用于验证375个用于测试。PoseTrack中的每个人都标有15个关节和一个用于关键点可见性的附加标签
2D HPE 评价指标
1. Percentage of Correct Parts (PCP) 通过计算正确预测的身体部位数量占总部位数量的比例来衡量算法的准确性。PCP 指标衡量了在预测的关键点位置与真实位置之间的距离是否在一定的阈值范围内。具体来说对于每个关键点如果预测的关键点与真实关键点之间的距离小于某个阈值则该关键点被认为是正确的。然后计算所有正确的关键点的比例作为 PCP 指标。PCP 指标的取值范围通常为0到1之间表示关键点的定位准确率的比例。值越高表示算法的性能越好。 PCP (正确预测的部位数 / 总部位数) * 100% 因为当肢体较短PCP并不能反映真实的性能因此 PDJ将躯干直径(torso diameter)
作为归一化因子。
引入了PDJ对此进行了改进① 考虑关键点的可见性只有在图像中可见的关键点才会被用于计算PDJ指标这样可以避免不可见的关键点对评估结果的影响② PDJ根据关键点的重要性分配了不同的权重③ PDJ在计算时考虑了关键点之间的相对位置关系。除了单独考虑关键点的检测准确性外PDJ还考虑了关键点之间的连接关系从而更全面地评估姿态估计算法的性能④ PDJ降低阈值对结果的影响
2. PDJ检测关节百分比。如果预测关节和真实关节之间的距离在躯干直径的某个分数内则预测关节被视为检测到。计算成功检测到的关节点数量与真实关节点数量的比例即PDJ值。 PCP 和 PDJ 的区别在于它们关注的准确度方面不同PCP 关注的是关键点的定位准确度而 PDJ 关注的是关键点的检测准确度。 3. Percentage of Correct Keypoints (PCK)相当于改进版的PDJ。因为PDJ的躯干直径鲁棒性较差因此PCK将头部分割长度作为归一化因子。PCK值越高认为模型性能越好。
4. Average Precision (AP) and Average Recall (AR)平均精度和平均召回率。是用于衡量关键点检测准确性的指标。AP真 正例结果和总 正例结果的比值AR正 正例结果 与 所有真实 正例数量的比值。除此之外还有mAP平均精确率和mAR平均召回率、OKS对象关键点相似度、IoU交并比其中OKS和IoU均可用于AP或AR。例如COCO评估指标通常使用10个OKS阈值的mAP作为评估指标
2D HPE 方法性能的比较
单人2D HPE 上图显示了在MPII数据集上使用PCKh0.5指标对不同2D单人姿态估计方法进行的比较结果
1回归方法回归方法可以通过端到端框架学习从输入图像到关键点坐标的非线性映射提供了一种快速学习范式和亚像素级别的预测精度。然而由于高度非线性的问题它们通常会给出次优解
2基于热图的方法相对于回归方法基于热图的方法在2D姿态估计中更广泛使用。这是因为热图中每个像素的概率预测可以提高关键点定位的准确性并且热图通过保留空间位置信息提供了更丰富的监督信息。但是预测关键点的精度取决于热图的分辨率使用高分辨率热图时会增加计算成本和内存占用。
多人2D HPE 上图展示了不同2D姿态估计方法在COCO数据集的测试-开发集上的实验结果同时还总结了实验设置额外数据模型中的主干网络输入图像尺寸以及每种方法的AP值。
比较实验突显了多人姿态估计中自顶向下和自底向上方法的显著结果。
1自顶向下流程产生更好的结果因为它首先使用检测方法从图像中检测出每个个体然后使用单人姿态估计方法预测关键点的位置。在这种情况下由于减小了背景对于关键点估计的影响更容易检测到人的关键点。
2自底向上方法通常比自顶向下方法更快因为它们直接检测所有关键点并使用关键点关联策略如亲和链接、关联嵌入和像素级关键点回归将它们分组成单个姿势。
下表说明了PoseTrack2017和PoseTrack2018数据集上最新的基于视频的工作的比较总结了测试集的详细结果。 未来展望 1. 人体姿态估计在特定应用领域数据不足需要解决领域差距问题针对某些特定应用领域如婴儿图片或艺术作品集合现有标准数据集中的训练数据不足且分布与这些特定应用领域不同导致现有的HPE方法在不同领域之间泛化能力不佳。近期的研究趋势是利用基于GAN的学习方法来缓解领域差距但如何有效地将人体姿态知识转移以弥合领域差距仍未得到解决。 Tips领域差距问题指的是由于不同领域数据分布特征的不同使用某个领域的训练数据来训练模型然后将该模型应用于另一个领域时可能会导致模型性能下降。这是因为在不同领域中人体的姿态变化、人体部位的形状等都有所不同导致现有的人体姿态估计方法在不同领域之间泛化能力不佳。解决领域差距问题的方法包括增加训练数据、使用迁移学习方法、利用领域自适应技术等。 2.人体模型参数庞大需减少参数同时保持模型质量使用人体模型来建模人体网格表示时模型参数数量庞大如SMPL、SMPL-X、GHUM GHUML、Adam等。如何在保持重建网格质量的同时减少参数数量以及不同人的身体形状变化多样如何设计更有效的人体模型可能会利用其他信息如BMI和轮廓以实现更好的泛化。 3.研究人体与场景的关系约束以提高3D HPE的可靠性大多数现有方法忽略了人体与3D场景的交互。对人体-场景之间的强关系约束进行探索如人物不可能同时出现在场景中其他物体的位置。物理约束与语义线索相结合可提供可靠和现实的3D HPE。 4. 需要改进视频中的3D HPE算法使其更加平滑连续3D HPE 在视觉跟踪和分析中起着重要作用。现有的从视频中进行的3D HPE 不够平滑连续。应开发适当的帧级评估指标重点关注时间一致性和动作平滑度。 5. 现有网络忽视了分辨率不匹配问题需要构建分辨率感知性的HPE网络现有训练良好的网络往往忽视了分辨率不匹配的问题这可能导致在低分辨率输入下预测人体姿态时出现不准确估计。对抗性学习方案可能有助于构建具有分辨率感知性的HPE网络。 6. 研究对抗攻击的防御提高HPE网络的鲁棒性视觉任务中的深度神经网络容易受到对抗攻击的影响。微小的噪音可以显著影响HPE的性能因此研究对抗攻击的防御可以提高HPE网络的鲁棒性。 7. 探索不同身体部位的专门神经网络架构以提高HPE的准确性和效率由于人体部位具有不同的运动模式和形状单个共享网络架构可能不适用于估计所有具有不同自由度的身体部位。神经网络架构搜索NAS可以搜索最佳架构来估计每个身体部位也可用于发现高效的HPE网络架构以减少计算成本。同时探索多目标NAS在HPE中的应用也具有一定价值特别是需要达到多个目标如延迟、准确性和能耗时。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/914335.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!