做图表的网站做新媒体的小说网站
news/
2025/10/6 19:17:50/
文章来源:
做图表的网站,做新媒体的小说网站,wordpress 中文安装教程,网站制作与网页设计计算机视觉三大国际顶级会议之一的 ECCV 2020 已经召开。今年 ECCV 共收到有效投稿 5025 篇#xff0c;是 ECCV 2018 论文投稿数量的二倍还要多#xff0c;接收论文1361 篇#xff0c;接收率为 27%#xff0c;相比上届会议下降了约 5%。在接收论文中#xff0c;oral论文数…计算机视觉三大国际顶级会议之一的 ECCV 2020 已经召开。今年 ECCV 共收到有效投稿 5025 篇是 ECCV 2018 论文投稿数量的二倍还要多接收论文1361 篇接收率为 27%相比上届会议下降了约 5%。在接收论文中oral论文数为 104 篇占有效投稿总数的 2%spotlight 论文数目为 161 篇占比约 3%。其中最佳论文奖由普林斯顿大学 Zachary Teed 和 Jia Deng 摘得论文题名为RAFT: Recurre-nt All-Pairs Field Transforms for Optical Flow。论文提出的RAFT模型由于其卓越的泛化能力成为最新的光流baseline模型该模型在KITTI在线评价指标中获得5.10%的异常值比率相比于当前公布的最佳模型提升了16%且在MPI-Sintel在线评价指标中获得2.855px的端点误差相比于当前公布的最佳模型提升了30%。本文首先将对光流的基本概念进行阐述接着对RAFT光流计算模型的具体实施步骤以及对应的思路进行介绍与分析。1 光流的基本概念光流是运动物体或场景表面像素点在投影平面的二维瞬时速度因此图像序列对应的光流不仅携带其中运动目标与场景的运动信息更包含了其结构信息。图1-1 光流可视化效果展示图1-1分别展示了光流计算技术在运动目标检测中的应用可以看到精确的光流不仅可以给出连续图像帧中每一像素点的运动信息还可清晰地分割出运动目标轮廓其中通过不同的颜色区分运动方向颜色的深浅定义运动矢量大小。图1-2光流计算技术应用21世纪以来随着计算机计算的不断提升光流计算技术广泛的应用于各种更高级的计算机视觉任务中。例如图1-2(a) 在针对视频的人体行为识别的研究中可利用人体行为的光流特征增强在时空域中人体行为特征的表述能力显著降低异常值点对行为识别产生的不良影响。图1-2(b) 在运动目标检测与目标跟踪的研究中可根据光流检测运动目标的结构、位移特性减少运动目标之间的匹配时间消耗提升在摄像机运动情况下目标检测、跟踪的鲁棒性。图1-2(c) 在机器人导航避障的研究中可利用光流针对图像区域的矢量信息获得机器人前方区域的避障信息提升机器人行动决策的精度。2 RAFT光流计算模型RAFT光流计算模型由特征提取模块、context提取模块、视觉相似性(Visual Similarity)计算模块以及更新迭代模块共同组成。下文将分别对RAFT光流计算模型中各模块的计算流程以及原理进行分析介绍。2.1 特征提取模块与context提取模块特征提取模块的作用为提取输入第一帧、第二帧图像中的特征其中特征的分辨率为输入图像的1/8。Context提取模块的作用同样为提取特征只不过只提取第一帧图像的上下文信息特征分辨率同样为输入图像的1/8。在结构上特征提取模块context提取模块的结构基本类似区别有两点首先模块中选择的规范化层不同特征提取模块采用的为instance规划化技术而context提取模块采用的为batch规划化技术。其次特征提取模块输出单一的输入图像特征而context提取模块输出两份输入的图像特征。2.2 视觉相似性(Visual Similarity)计算模块视觉相似性计算模块的作用和2018cvpr光流领域经典论文PWC-Net的思想类似区别便是PWC-Net是在每一层特征金字塔中利用上层金字塔预测光流对当前层的第二帧图像特征向第一帧图像特征进行warp然后对warp的第二帧图像特征与原始第一帧图像特征进行匹配获得对应的cost volumePWC-Net中cost volume的尺寸为[batch, d, h, w]例如[2,81,24,80]代表第一帧图像特征中的每一个像素点与warp后第二帧图像中以这个像素点为中心的9x9邻域范围内的点做匹配(点乘操作)如上式所示其中k4,代表匹配的半径长度为4与分别代表第一帧图像特征中的像素点与第二帧图像特征中的像素点总共对2个batch进行上述操作。而RAFT中的视觉相似性计算模块的计算流程是首先对第一帧图像特征与第二帧图像特征匹配获得一个[batch, h, w, h, w]的cost volume代表第一帧图像中的每一个像素点都与第二帧图像特征中所有像素点进行匹配总共进行batch次上述操作。匹配过程如下式所示其中与分别为第一帧图像特征与第二帧图像特征i,j,k,l分别为第一帧与第二帧图像特征的高、宽索引, h为图像特征的通道维度索引。RAFT在原始图像分辨率1/8的图像特征上通过迭代优化光流光流的初始值设定为0,也就是说不产生移动然后通过该光流索引上述尺寸为[batch, h, w, h, w]的cost volume(方便表示记作CT1)具体来说便是在第一次迭代中因为光流初始值为0那么便利用上述CT1索引第二帧图像中以当前像素点为中心的9x9邻域范围内点的匹配结果后续迭代中因光流迭代之后不为0同样进行上述索引只不过需要在当前点上施加一个光流的位移通过此操作获得的cost volume记作CT2尺寸为[batch, d, h, w]d与PWC-Net论文中的参数一样一般为81。通过上述操作便可使匹配范围进一步扩大进而在下文中将要提到的更新迭代模块中求得残差光流用来补偿初始光流。可通过Pooling操作获得不同分辨率下的CT2用来获得局部以及整体的特征。2.3 更新迭代模块更新迭代模块的输入由四部分组成两份context提取模块输出CT2以及上层迭代过程输出的光流。该模块利用GRU模块以及卷积操作计算出相对于上次迭代过程输出光流的残差光流然后与上次迭代过程输出光流进行相加用作补偿。需要注意的是该模块中利用卷积操作学习上采样权值使当前1/8分辨率下的光流上采样到与输入图像同尺寸具体形式如下图所示其中w1-w9为利用卷积操作学习到的权重也就是说上采样之后的光流结果中每一像素点的值都与其周围的9个像素点有关。最后输出每一次迭代过程生成的全分辨率光流结果用于损失函数计算更新模型中的参数。3 RAFT模型中的损失函数RAFT模型中总共进行12次优化迭代也就是说会产生12个全分辨率下的光流结果。迭代次数越多光流计算精度越精确。RAFT模型采用的是监督算法具体步骤可以表示为通过求取12次光流迭代过程中的光流计算结果与光流真实值的L1范数并且迭代的次数越多对应L1范数结果的权值也就越大(说明该结果对整个损失函数的影响越大)如下式所示其中N12。4 总结本文叙述了ECCV最佳论文RAFT的一般计算步骤如有不足请多多指教。本文仅做学术分享如有侵权请联系删文。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929623.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!