建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日...

来源:机器之心
哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景……上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。这座空中城堡的确是人为「构建」的,但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。荒野、公路、疾驰的汽车,还有天边的巨型神秘建筑物,有科幻 / 末世电影内味儿了。然而,这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片?!别急,还有大招。(以下示例左图为原始画面,右图为处理后画面。)右图场景是不是更像《天空之城》了?这场景让人想起一句歌词「打开这深夜,抚摸寒星光,我只想走进圆月亮」。除了改变天空(比如增加悬浮城堡、改变色彩和云朵等),这项技术还能变换场景中的天气和光照。今日天气多云转晴。雷暴预警!一瞬间天昏地暗,雷电交加。看起来,这项技术似乎都可以用到电影业了。那它是如何做到的呢?这项研究提出一种用于视频中天空置换与协调的视觉方法,该方法能够在风格可控的视频中自动生成逼真的天空背景。以往的天空编辑方法要么针对静态图片,要么需要在智能手机上集成惯性测量单元(IMU)以便拍摄视频,而这项研究是完全基于视觉的,对视频捕获设备没有任何要求,还能很好地应用于在线或离线场景。此外,该方法可以执行实时处理,无需用户交互。研究人员将这个艺术加工过程分解成 3 个任务:天空抠图(sky matting)、运动估计和图像融合,并在智能手机和行车记录仪在户外采集到的视频上进行了实验,结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性。
  • 论文地址:https://arxiv.org/pdf/2010.11800.pdf

  • GitHub 地址:https://github.com/jiupinjia/SkyAR

  • 项目主页:https://jiupinjia.github.io/skyar/

  • Google Colab 地址:https://colab.research.google.com/drive/1-BqXD3EzDY6PHRdwb3cWayk2KictbFaz?usp=sharing

方法


下图概述了该研究提出的方法,它由 3 个模块组成:天空抠图网络、运动估计算法以及 skybox。


天空抠图网络用来检测视频帧中的天空区域。与以往将此过程定义为二元像素级分类(前景 vs 天空)问题的方法不同,该研究设计了一种基于深度学习的由粗到细的预测 pipeline,以产生更精确的检测结果和更悦目的混合效果。

运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。该研究假设天空以及天空中的物体(例如,太阳、云等)位于无穷远,并用 Affine 矩阵建模它们相对于前景的运动。

skybox 模块用于天空图像的扭曲和混合。给定前景帧、预测的天空抠图、运动参数,skybox 将基于运动扭曲天空背景并将其与前景混合。skybox 还应用了重光照和重新着色技术,使混合结果在颜色和动态范围方面更加逼真。

实现细节

该方法使用 ResNet-50 作为天空抠图网络的编码器(全连接层被移除)。解码器部分包括 5 个卷积上采样层(coordinate 卷积 + relu + 双线性上采样)和一个像素级预测层(coordinate + sigmoid)。该研究方法遵循 UNet [30] 的配置,并在具有相同空间大小的编码器层与解码器层之间添加残差连接。表 1 显示了该网络的详细配置:

实验


天空增强和天气模拟


除了前文及上图展示的处理效果以外,该研究还展示了该方法与 CycleGAN 方法之间的对比结果,具体如下图 5 所示:

图 5:该研究提出方法与 CycleGAN 的定性对比结果。


下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果。该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN。


速度

下表 3 展示了该研究提出方法的速度:


研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试。对于不同输出分辨率而言,处理速度有所不同:该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps),在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps),不过仍有很大提升空间。

根据统计,天空抠图阶段需要花费相当多的时间,因此用更高效的 CNN 主干网络(如 MobileNet 或 EfficientNet)替换 ResNet-50,可以提高处理速度。

局限性

该方法也存在一些局限性。


首先,天空抠图网络仅基于白天的图像训练,因此该方法可能无法检测夜晚视频中的天空区域。

其次,当视频特定时间段没有天空像素时,或者天空中没有纹理时,该方法无法精确建模天空背景的运动。

下图 8 展示了两个失败案例:

作者简介


本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员。他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位。其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用。

他参与撰写的论文被 AAAI、CVPR、ICCV、ACM MM 等多个学术顶会接收。此外,他还曾担任 NeurIPS、AAAI、ACCV 和 WACV 等多个学术会议的程序委员,以及 ICLR 会议及 IEEE Transactions on Image Processing 等多份期刊的审稿人。

此前,机器之心报道过的一项用人脸照片生成游戏专属角色的研究也有他的参与。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle 查询表空间路径

select * from dba_data_files转载于:https://www.cnblogs.com/xsdf/p/8629170.html

个人计算机有控制器和运算器吗,cpu是由控制器和运算器组成的对还是错

对的。CPU即中央处理器,是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。一、控制器是整个计算机系统的指…

python百度翻译接口_python3 调用百度翻译API翻译英文

自行申请百度开发者账号import importlib,sys,urllib importlib.reload(sys) import urllib.request import json #导入json模块 import hashlib import urllib import random def translate(inputFile, outputFile): fin open(inputFile, r,encodingutf-8) #以读的方式打开输…

BZOJ2150: 部落战争

【传送门:BZOJ2150】 简要题意: 给出一个矩阵,矩阵上的字符有两种,一种是x,表示山洞(不可走),一种是.,表示城镇 可以在城镇处放士兵,士兵经过的每个城镇都会被…

计算机网络教室教师岗位责任,计算机室网络教室管理员岗位职责.docx

个人精心收集整理.word 可编辑 .欢迎下载支持计算机室、网络教室管理员岗位职责1、微机室担任人岗位职责为保证校园微机室计算机运用作业的顺利进行,为校园的教育及其它作业供给技能、信息材料,全面优质地效劳于校园的教育教育作业,特拟定微机…

又一壮举!GPT-3首次完成剧本创作,AI解决创造性问题的能力正迅速提升

来源:中国智慧城市导刊文章原载于 学术头条自今年 6 月份发布以来,OpenAI 的文本生成人工智能工具 GPT-3 获得了极大的关注。它被用来在论坛上发表评论、写诗、甚至在《卫报》中发表文章。当 GPT-3 没有经过专门培训就学会自动完成某项任务时&#xff0c…

python匿名函数里用for_请问这段Python代码如何用匿名函数简化?

展开全部 楼主你5261好! 要解决这道题目并不难,4102只需要理解匿名lambda是如何使用的便可; “lambda 表达式16531:表达式2”其实就是定义了一个函数,传入表达式1的参数,按表达式2的形式返回,因…

需要多长时间达到一个本科毕业生刚毕业的水平。

大学每年在校时间9个月。法定节假日11天,法定休息日104天 实际上学天数:365-11-104*(9/12)-90186 实际学习小时数:8*1861488 4年总计学习小时数:4*14885952 这种学习热情在当今高校中,应该算是个学霸了。 一个上班的人…

Hinton构思下一代神经网络:属于无监督对比学习

本文由机器之心报道Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。自 20 世纪 80 年代开…

win7的计算机最大连接数,win7系统解除共享文件夹最大连接数限制的操作方法

很多小伙伴都遇到过对1、首先在win7系统中点击开始菜单,选择控制面板;2、点击系统和安全;3、点击管理工具;4、点击进入,本地安全策略进行操作设置;5、点击进入,安全设置-本地策略-安全选项”里面…

windows 获取命令执行后的结果_法院判决以后,老赖欠钱不还,递交强制执行申请多久后有结果?...

网友提问:老赖欠钱不还,已向法院递交了强制执行申请一个月了,老赖仍逍遥法外,该怎么办?这个阶段你称之为老赖,也无不可。但还不是法律上所认可的老赖,法律上的老赖也只是个俗称,学名…

spring boot学习(2) SpringBoot 项目属性配置

第一节:项目内置属性 application.properties配置整个项目的,相当于以前的web.xml;注意到上一节的访问HelloWorld时,项目路径也没有加;直接是http://localhost:8080/helloWorld;因为它默认的server.servlet.context-pa…

研究揭示动物社交欲望的神经机制

来源:中国科学院生物物理研究所10月22日,中国科学院生物物理研究所朱岩课题组在Nature Communications上发表题为Social attraction in Drosophila is regulated by the mushroom body and serotonergic system的研究论文,研究以果蝇为模型&a…

魔兽世界怀旧服服务器最新阵营比例,《魔兽世界怀旧服》人口普查2019 阵营及服务器人口比例...

世界怀旧服已经有一段时间了,而具体有多少玩家在怀旧服中呢?不一样的服务器,和的玩家人数是不同的,而就在最近,魔兽世界怀旧服进行了一次玩家统计,那么接下来,就为大家介绍一下魔兽世界怀旧服20…

bat复制文件到指定目录同名_scp复制文件时排除指定文件

请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1. 前言本文主要讲解如何在scp复制文件时排除指定文件。举例:我需要将所有*.c文件从名为hostA的电脑复制到hostB&#xff0c…

传感器的“脖子”卡在哪儿?

来源:人民政协报昨天胜利闭幕的十九届五中全会研究关于制定“十四五”规划和2035年远景目标的建议。其中加强自主创新、对卡脖子关键技术攻关是重中之重,并将传感器作为“卡脖子”技术攻克目标之一。与此同时美国近期也公布了《关键与新兴技术国家战略》…

服务器大线程有什么作用,全面剖析超线程技术优点与缺点

欢迎各位阅读本篇文章,超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率…

遍历矩阵每一行穷举_[LeetCode] 566. 重塑矩阵

题目链接: https://leetcode-cn.com/problems/reshape-the-matrix难度:简单通过率:61.6%题目描述:在MATLAB中,有一个非常有用的函数 reshape,它可以将一个矩阵重塑为另一个大小不同的新矩阵,但保留其原始数…

git push时报错fatal: Could not read from remote repository.

后来发现,出现这个问题是因为仓库地址不对 使用如下命令先查看一下: $ git remote -v 发现跟github的地址不一致 然后在终端输入:git remote set-url origin XXX 然后重新push就可以了 转载于:https://www.cnblogs.com/sjhsszl/p/git.html

Hinton新作!越大的自监督模型,半监督学习需要的标签越少

来源:AI科技评论编译:青暮本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了优越的结果。此外,他们还发现&#xff…