卡内基梅隆大学提出基于学习的动作捕捉模型,用自监督学习实现人类3D动作追踪

原文来源Cornell University Library

作者:Hsiao-Yu Fish TungHsiao-Wei TungErsin Yumer、 Katerina Fragkiadaki

「雷克世界」编译:我是卡布达、哆啦A亮

 

目前,从单摄像头中进行动作捕捉(motioncapture)的最好方法是优化驱动的:通过优化3D人体模型的参数从而使二次投影与视频中的测量结果相匹配(例如,人像分割、光流、关键点检测等)。优化模型容易受到局部最小值(local minima)的影响。这成为了限制动作捕捉的瓶颈,致使每次捕捉动作时必须用干净的绿布作为背景,并且要手动初始化或切换成多摄像头作为输入源。在本项研究中,我们提出了一个用于单摄像头输入的基于学习的动作捕捉模型。我们的模型没有直接优化网格和骨骼参数,而是通过优化神经网络权重来预测给定单目RGB视频的3D形状和骨骼构造。我们的的模型是使用来自合成数据的强监督与来自一个端到端框架中(a)骨骼关键点(b)密集型网格运动(c)人物背景分割可微渲染中的自监督进行联合训练的通过检验,我们证实,我们的模型结合了监督学习和测试时间优化二者的优点:监督学习在适时情况下初始化参数,在测试中确保良好的姿态和表面初始化,不需要手动操作。通过可微渲染的反向传播进行的自监督,使得(无监督的)模型适应测试数据,并且相较预训练固定模型而言,可提供更好的拟合性。我们在此表示,此次提出的模型将随着经验的不断积累,以及总结过去的低误差解决方案而不断改进。


从“自然环境下”的单目装置中详细了解人体及其运动将为自动化健身房、舞蹈教师、康复指导、患者监护以及更安全的人机交互的应用开辟道路。这也会影响到电影行业,因为目前,人物动作捕捉(MOCAP)和重定向,仍需要艺术家花费繁重的劳动力,或者使用昂贵的多摄像机设置和绿屏才能达到理想的精度。


当前,大多数动作捕捉系统都是优化驱动,其并不能从经验中获益。单目动作捕捉系统优化3D人体模型的参数以在视频中与测量结果相匹配(如人像分割、光流等)。背景杂乱和优化困难显著影响追踪性能,这导致过去在工作中总使用绿色的背景幕布,并且进行细致的初始化工作。此外,通过这些费力的方法所捕捉到的动作数据,并不能随着时间的推移而改进。这意味着每次处理视频时,都需要从头重复进行优化和手动操作。


图1 动作捕捉的自监督学习


给定一个视频序列和一组2D肢体关节热图,我们的网络可预测SMPL3D人体网格模型的肢体参数。神经网络权重使用合成数据进行预训练,并使用可微关键点、分割和二次投影误差分别针对检测到的2D关键点、2D分割和2D光流的自监督缺失驱动(self-supervised losses driven)进行微调。通过在测试时运用自监督损失(self-supervised losses)微调其参数,本文提出的模型要比基于模型的纯监督或纯优化具有更高的3D重建精度。其中,基于模型的纯监督或纯优化模型既不能适应也不能从训练数据中受益。


我们提出了一个在单目视频中进行动作捕捉的神经网络模型,学习将一个图像序列映射到一个相应的3D网格序列中。深度学习模型的成功在于从大规模注释数据集中进行监督。然而,详细的3D网格标注是非常繁琐而耗时的,因此在实际生活中,大规模的标注3D人体姿态是不现实的。在真实视频中,我们的工作通过将手动渲染模型的大规模合成数据中的强监督、与3D关键点的3D转2D可微渲染、动作和分割以及真实独目视频中2D相应检测量的匹配中所包含的监督相结合,从而避免了真实视频中缺乏3D网格注释这一问题。我们的自监督利用了2D身体关节检测、2D图底分割和2D光流技术的最新研发成果,分别使用真实或合成数据集(如MPII、COCO和flying chairs)的强大监督进行学习。事实上,注释2D身体关节比注释3D关节或3D网格更容易,而光流被证明可以很容易地从合成数据泛化到真实数据。我们展示了最先进的2D关节、光流和2D人像分割模型是如何用于推理出自认环境下视频中密集的3D人体结构的,而这些工作是难以通过手动操作来完成。与之前基于优化的动作捕捉研究相比,我们现在对光流和分割损耗使用的可微变形(differentiable warping)和可微相机投影技术,使得模型可以通过标准的反向传播进行端对端的训练。


我们使用SMPL作为我们的密集人体3D网格模型。它由一定数量的固定拓扑结构顶点和三角形拓扑结构组成,其中,全局姿势由身体各部分之间的角度θ控制,局部姿势由网格表面参数β控制。对于给定姿势和表面参数,密集网格可以以一种分析法(可微分)形式生成,然后将其全局旋转并转换到期望的位置。我们模型的任务是对渲染过程进行逆向工程,并且预测SMPL模型(θ和β)的参数以及每个输入帧中的焦距、3D旋转和3D翻译,在检测到的人身周围提供图像分割。


给定两个连续帧中的3D网络预测,我们可以对网格顶点的3D动作向量进行差分投影,并将它们与已评估的2D可见光流向量进行有针对性的匹配(图1)。可微动作渲染和匹配需要对顶点可见性进行评估,对于这一点,我们使用光线投射(ray casting),以及用来执行代码加速的我们神经模型实现。类似地,在每一帧中,3D关键点都会被投影,并且他们与相应被检测到的2D关键点之间的距离将会被惩罚。最后,重要的是,可微分割匹配使用倒角距离(Chamferdistances)针对人类前景2D分割的投影顶点的欠拟合和过度拟合进行惩罚。请注意,由于3D网格是无纹理的,因此我们的预测中,二次投影的误差只存在于形态上而非设计的纹理上。


我们提供了在SURREAL和H3.6M数据集上进行的3D密集型人体形态追踪的定量和定性分析结果。我们将其与相应的优化版本进行比较,在这些版本中,网格参数通过最小化我们的自监督损失而优化,并且在测试时不使用自监督,进而达到屏蔽监督模型的效果。优化基线很容易陷入局部极小值,而且它对初始化非常敏感。相比之下,我们的基于学习的MOCAP模型通过预训练(合成数据)可在测试时提供良好的姿态初始化。此外,自监督适应模型比预训练的非适应模型的3D重建误差低。最后,我们的ablation研究突出了三种自监督损失的互补性。


相关研究


3D动作捕捉 


使用多台摄像机进行3D动作捕捉(四个或四个以上)是一个已被详细研究的问题,其中现有的方法取得了令人印象深刻的结果。然而,即使对于仅有骨架的捕捉/追踪,单个单目照相机的动作捕捉仍是一个尚待解决的问题。由于单目动作捕捉中的模糊和遮挡可能是严重的,大多数方法依赖于先前的姿势和动作模型。早期的研究考虑线性动作模型。诸如高斯过程动力学模型、以及双高斯过程这样的非线性先验,都已经被提出,并且被证明优于其线性对应结构。最近,Bogo等人提出了一种静态图像姿势和3D密集形状预测模型,其工作分为两个阶段:首先,从图像中预测一个三维人体骨架,然后使用优化过程将参数3D形状拟合到预测骨架,在此过程中骨架保持不变。相反,我们的研究通过测试时间适应,将3D骨架和3D网格估计结合到一个端到端的可微框架中。

 

3D人体姿态评估 


早期的3D姿态评估研究考虑了优化方法和硬编码的拟人约束(anthropomorphic constraints)(例如肢体对称),以消除2D-to-3D提升期间的模糊性,。许多最近研究使用深度神经网络和大型监督训练集,对于给定给定RGB图像,学习直接复归为3D人体姿势。一些研究已经探索使用2D身体姿态作为中间表征,或者作为多任务设置中的辅助任务,其中丰富的被标注的2D姿势训练实例有助于特征学习,并补充有限的3D人体姿势监督,这需要一个Vicon系统,因此被限制只能在实验室仪器化的环境中进行。Rogez和Schmid通过将合成的3D人体模型与逼真的背景相结合,获得了大规模的RGB到3D的合成注释,也在这项研究中使用的数据集。


深度几何学习 


我们的可微渲染器遵循最近将深度学习和几何推理相结合的研究。可微变形和可后置摄像头投影已经被用于学习3D摄像机动作,以及学习一个以端到端的自监督的方式进行的3D摄像机和3D物体联合动作,从而使光度损失最小化。Garg等人学习单目深度预测器,由光度误差监督,给定一个立体图像且已知基线作为输入。《gvnn:几何计算机视觉的神经网络库》中贡献了一个深度学习库,有许多几何操作,包括一个可后置的摄像头投影层,类似于Yan等人和吴等人所使用的摄像头。


结论


我们已经提出了一个基于学习的用于密集人体3D动作追踪的模型,用合成数据进行监督,并并通过动网格、关键点和分割的可微渲染进行自监督,并与2D等价量相匹配。我们发现,我们的模型通过使用未标记的视频数据得到了改进,这对于动作捕捉非常有价值,其中,密集3D对照数据难以进行标记。未来研究的一个明确方向是对网格参数的迭代加性反馈,以获得更高的3D重建精度,然后同样以自监督的方式,在参数SMPL模型的顶部学习残差自由形态变形(residual free formdeformation)。 我们的模型在人类3D姿势之外的扩展将使神经智能体以人类的经验学习3D,而其仅由视频动作进行监督。


未来智能实验室致力于研究互联网与人工智能未来发展趋势,观察评估人工智能发展水平,由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

session过期时间控制的一些常用方法

来源:http://blog.csdn.net/luo_yifan/article/details/4659392 在一般系统登录后,都会设置一个当前session失效的时间,以确保在用户没有使用系统一定时间后,自动退出登录,销毁session。 具体设置很简单&#xff1a…

java 昵称1到32位字符_Java期末考试编程题复习

在程序中定义Person类&#xff0c;为该类编写如下字段、构造器、访问器、修改器和相应的其他方法。(20分)<1>在Person类中定义两个字段&#xff1a; 私有访问权限&#xff0c;类型为String的name字段&#xff1b; 私有访问权限&#xff0c;类型为int的age字段。<2>…

AI智商评测标准专家研讨会邀请,2018年12月20日北京

21世纪以来&#xff0c;人工智能领域陆续爆发很多重要事件。其中最吸引人们眼球的&#xff0c;当属2016年战胜了人类围棋冠军并开始能够从0自我学习的AlphaGo。 10月26日&#xff0c;软银CEO孙正义在沙特阿拉伯举行的未来投资计划大会上称&#xff0c;未来30年内AI的智商&#…

java代码pingip_java程序ping IP

package com.fdway.tool;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;/**** ping IP地址检查IP地址能否可用**/public class PingIPUtil {public static void main(String[] args) throws IOExce…

HTML 显示特殊字符时转义操作

/*** 转换 HTML 特殊字符*/public static String escape( String s ){if( StringUtils.isBlank( s ) ){return " ";}StringBuilder sb new StringBuilder( s.length() );for( int i 0 ; i < s.length() ; i ){char c s.charAt( i );switch( c ){case < : sb…

开源神经网络框架Caffe2全介绍

本文作者吴逸鸣&#xff0c;整理自作者在GTC China 2017大会上的演讲&#xff0c;首发于作者的知乎文章。 我个人认为这是一份很值得分享的资料&#xff0c;因为 这应该是第一次使用全中文来讲解Caffe2和FB的AI应用的演讲 观看这次演讲不需要机器学习&#xff0f;神经网络&…

JAVA设置jscrollbar大小_JScrollBar垂直/水平设置问题 – Java Swing

下面是我上面提到的一个小的可编辑代码片段.我同意camickr你不应该使用绝对定位而是使用布局管理器.如果你绝对需要为JTextField提供一个水平滚动条,那么让它工作的一种方法就是让它始终显示,使用允许这个的JScrollPane构造函数.即,JScrollPane inputPane new JScrollPane(inp…

TPTP(Java Profiling Tools插件)对Java程序进行性能测试

来源&#xff1a;http://blog.csdn.net/wsj19890201/article/details/5492517 TPTP下载地址&#xff1a;http://www.eclipse.org/tptp/ 概述&#xff1a;Eclipse Test & Performance Tools Platform (TPTP) 的性能测试工具 (Profiling tool)能够用于优化eclipse插件应用、…

AI指数评论:提防“路灯谬误”,开启全球多方对话

来源&#xff1a;亿欧 概要&#xff1a;技术的单点突破&#xff0c;资本市场的多级繁荣&#xff0c;诸如此类的话题充斥着过去两到三年。然而&#xff0c;在AI时代思考AI&#xff0c;我们需要更宏大的世界观。 技术的单点突破&#xff0c;资本市场的多级繁荣&#xff0c;诸如此…

算法还是算力?周志华微博引爆深度学习的“鸡生蛋,蛋生鸡”问题

来源&#xff1a;AI科技大本营上周&#xff0c;由强化学习加持的AlphaZero&#xff0c;把DeepMind在围棋上的突破成功泛化到其他棋类游戏&#xff1a;8小时打败李世石版AlphaGo&#xff0c;4小时击败国际象棋最强AI——Stockfish&#xff0c;2小时干掉日本象棋最强AI——Elmo&a…

java求平均值Scanner_Scanner的一些问题

import java.util.Scanner;public class 无参带返回值方法的使用 {public static void main(String[] args) {// 创建名为hello的对象无参带返回值方法的使用 hello new 无参带返回值方法的使用();// 调用hello对象的calcAvg()方法&#xff0c;并将返回值保存在变量avg中doubl…

WeakHashMap

来源&#xff1a;http://hecc-cqut.iteye.com/blog/984235 在广大的Java界&#xff0c;关于WeakHashMap一直都存在这么个传说&#xff1a; Java代码 在WeakHashMap 中&#xff0c;当某个键不再正常使用时&#xff0c;自动移除其条目 在WeakHashMap 中&#xff0c;当某个键不再…

计算机视觉大规模爆发,6大细分领域将撑起725亿元市场

来源&#xff1a;中国经济时报概要&#xff1a;近几年来&#xff0c;随着技术的发展&#xff0c;中国计算机视觉行业发展迅速。近几年来&#xff0c;随着技术的发展&#xff0c;中国计算机视觉行业发展迅速。尤其是2016年下半年&#xff0c;1∶N人脸识别、视频结构化等计算机视…

java项目内存使用率过高排查_项目内存或者 cpu 占用率过高如何排查

前言:小编总结了之前生产环境cpu 占用率过高等问题,小编功力不够深厚,文章如有不对的地方,还望各位大神指正。排查原因&#xff1a;客服反馈说系统访问缓慢一、 在排查问题的过程中针对 CPU 的问题&#xff0c; 使用以下命令组合来排查问题模拟过程:①示例代码&#xff1a;pack…

java怎么自动提示关键词_Eclipse 实现关键字自动补全功能 (转)

一般默认情况下&#xff0c;Eclipse &#xff0c;MyEclipse 的代码提示功能是比Microsoft Visual Studio的差很多的&#xff0c;主要是Eclipse &#xff0c;MyEclipse本身有很多选项是默认关闭的&#xff0c;要开发者自己去手动配置。如果开发者不清楚的话&#xff0c;就不知道…

2017 人工智能+内容生产研究报告【附下载】

来源&#xff1a;亿欧概要&#xff1a;技术进步和产业内生需求&#xff0c;是推动AI开始在内容生产领域应用的两个主要动力。为了弄清AI内容生产进行到何种程度&#xff0c;对内容生产可能产生何种影响&#xff0c;小编撰写了这份《2017 人工智能内容生产研究报告》&#xff0c…

ThreadLocal与Synchronized的用法

来源&#xff1a;http://blog.csdn.net/wl_ldy/article/details/5948779 一.ThreadLocal的用法 ThreadLocal的实现&#xff1a; package com.sodao.lucene; import java.util.Random; public class ThreadLocalTest implements Runnable{ ThreadLocal<Studen…

java程序员面试需要注意什么_Java程序员面试时要注意的一些问题

Java程序员面试的时候会面临各种五花八门的问题&#xff0c;你的第一反应、思维逻辑、思考方法&#xff0c;专业水平决定了企业对你的评价和你的薪资水准&#xff0c;但是除了专业以外还有一些你需要避免出现错误的注意事项&#xff0c;如果很好的避免了&#xff0c;就能帮你在…

“强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识

李杉 编译自 KDnuggets量子位 出品 | 公众号 QbitAI地处加拿大埃德蒙顿的阿尔伯塔大学&#xff08;UAlberta&#xff09;可谓是强化学习重镇&#xff0c;这项技术的缔造者之一萨顿&#xff08;Rich Sutton&#xff09;在这里任教。△ 萨顿萨顿常被称为“强化学习之父”&#xf…

cmd中java编译命令是什么_cmd中java的编译命令——java和javac、javap

如题&#xff0c;首先我们在桌面&#xff0c;开始->运行->键入cmd 回车&#xff0c;进入windows命令行。进入如图所示的画面&#xff1a;可知&#xff0c;当前默认目录为C盘Users文件夹下的Administrator文件夹。一般而言&#xff0c;我们习惯改变当前目录。由于windows有…