实用指南:视频模型的主流结构

news/2025/11/11 12:26:27/文章来源:https://www.cnblogs.com/tlnshuju/p/19209740

实用指南:视频模型的主流结构

2025-11-11 12:22  tlnshuju  阅读(0)  评论(0)    收藏  举报

相较于单张图像,视频比图片多了一个时间维度,针对多出的时间维度,目前模型的主流架构有以下三种:

  1. 双流
  2. 3D
  3. R(2+1)D
  4. Vedio Transformer

Two-Stream

双流网络是第一个能让深度学习网络的结果媲美手工设计特征的视频分类结构,从此之后,深度学习在视频领域开始占据主流。双流网络通过额外引入一个时间流网络,巧妙的利用光流来给出运动信息(时序信息 )。当运用一个网络无法很好的处理时序信息时,只必须在下面再加一个神经网络去专门处理时序信息 ,比如从原始的视频抽取光流图像,光流图像中包含运动和时序信息。两个网络都不用学习时序的信息,分别学习rgb到分类、光流到分类的映射,把障碍简化了幅提高了模型的性能。

光流‌是描述连续图像帧中像素点运动模式的二维矢量场,广泛应用于计算机视觉、无人机导航和机器人定位等领域。光流说就是每个物体的运动轨迹,运动越明显的区域亮度越高。通过提取光流,可以去掉背景噪声、人物穿着性别等和运动无关的特征都忽略掉,所以最后提取的特征能很好的描述运动信息,也变相的相当于视频里的时序信息的特征表示。光流由一些位移矢量场组成的,其中第t帧的位移矢量用dt表示,是通过第t和第t+1帧图像得到的。dt可以拆分成水平部分dtx和竖直部分dty。将dtdtxdty可视化后结果如下:

a、b是前后两帧图片;c是光流dt的可视化显示;d、e分别是水平位移dtx和垂直位移dty。每两张图得到一个光流,如果视频一共抽取L帧,那么光流就是L-1帧。这些光流一起输入光流网络。将光流的密集表示(dense)转为稀疏表示(sparse)以减少光流存储空间,具体来说就是做类似RGB图像的压缩。将光流值全部rescaled到[0,255]的整数,存成JPEG图片

对于空间流和时间流测融合,也有很多的研究工作,1)根据融合的位置也分为Late Fusion、Early Fusion、Slow Fusion;2)尝试更深的网络也是一个研究方向;3)LSTM时序建模。

3D

C3D

3D CNN是直接学习视频里的时空信息,就不需要再额外用一个时间流网络去对时序信息单独建模了,也就不需使用光流。但是3D网络参数量大,且需要合适的视频资料集去做预训练,之前受到数据的限制,所以之前的3D网络都不太深(比如C3D模型,其网络只有8层),效果也不如双流网络。

I3D

I3D即Inflated 3D ConvNetInflated是扩大膨胀的意思,这里是指把一个2D模型扩张到一个3D模型(比如直接将ResNet的卷积核从二维替换为三维,池化也使用3D池化等等)。这样做的优点是,不用再从头设计一个3D网络,直接使用成熟的2D网络进行扩充,而且还可以使用2D网络的预训练参数进行模型初始化,简化了训练过程,使用更少的训练时间达到了更好的训练效果,所以模型可以做的很深,也不需要太多的视频数据进行训练

Inflated

使用这种方式。就是扩张方式非常的简单粗暴,其它网络结构都不变,就是把2D的卷积核加一维变为3D(K*K->K*K*K),2D池化改为3D池化。一直到最新的video swin transformer(2022年),将swin transformer从2D扩张到3D,也

Bootstrapping

验证模型是否正确初始化:使用预训练模型初始化自己的模型时,如果同一张图片,分别输入原模型和初始化后的模型,最终输出的结果都一样,就说明原模型的参数初始化是对的(因为两个模型的结构和输入都是一样的)。I3D的作者受此启发,将一张图复制粘贴N次就得到了一个视频,这个视频每个时间步上都是同一张图片。将图片x和其复制N次得到的视频x′分别输入2D网络f和3D网络f′,将后者的网络除以N,如果和2D网络的输出一样,则说明3D网络初始化正常。

Non-local Block

受到Transformer的影响,Non-local Neural Networks的作者,就考虑将自注意力融入I3D当中。Non-local运行,即将所有位置的特征加权求和,作为某个位置的响应。这些“所有位置”可以是空间维度、时间维度或空间-时间维度,分别对应于图像、序列和视频。

图中xi(球),这个球与前面的所有位置都有关联,但图中只给出了关联性最高的位置。

Non-local Block如下所示:

这种残差结构,可以让我们在任意的模型中插入一个新的Non-local Block,而不改变其原有的结构。

R(2+1)D

将3D卷积核分解为2D空间卷积和1D时间卷积,通过增加非线性层提升模型表达能力,同时减少优化难度。

R(2+1)D 就是将一个t*d*d的卷积核,替换为一个1*d*d的卷积核和一个t*1*1的卷积核。也就是先只在空间维度(宽高尺度)上做卷积,时间维度卷积尺寸保持为1不变;继而再保持空间维度不变,只做时间维度的卷积。

3D和2+1D都是目前比较常用的结构, HunyuanVideo采用的就是3D,Movie Gen启用的则是2+1D。

Video Transformer

TimeSFormer

TimeSformer是Facebook AI于2021年提出的无卷积视频分类方式,该技巧使用ViT网络结构作为backbone,提出时空自注意力机制,以此代替了传统的卷积网络。借鉴R(2+1)D 的方法,将自注意力操作其拆分为时间自注意力和空间自注意力

Video Swin Transformer

Video Swin Transformer属于是 Swin Transformer的一个变体,它是通过用基于 3D 移位窗口的多头自注意模块替换标准 Transformer 层中的多头自注意(MSA)模块构建的,并保持其他组件不变。因此可能采用在大规模图像数据集上预训练的Swin Transformer模型对其进行初始化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/962263.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cloud IDE vs 本地IDE:AI编程时代的“降维打击“ - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年口碑好的定制床垫热门厂家推荐榜单

2025年口碑好的定制床垫热门厂家推荐榜单行业背景与市场趋势随着消费者对睡眠质量要求的不断提升,中国床垫市场正经历着前所未有的变革与增长。据中国家用纺织品行业协会最新数据显示,2025年中国床垫市场规模预计将达…

题解:魔力环

一种暴力推式子做法。 思路 由于求循环同构等价类个数,所以容易想到使用 Burnside 引理进行求解。 Burnside 引理 部分 设 \(g_i\) 表示旋转 \(i\) 次。 假设要求 \(g_i\) 的不动点的个数,则从一个点向其将要到达的点…

2025 年 11 月配电柜/配电箱/开关柜厂家推荐排行榜,智能配电系统,高低压配电柜,动力配电箱,户外防雨配电箱公司推荐

2025年11月配电柜/配电箱/开关柜厂家推荐排行榜,智能配电系统,高低压配电柜,动力配电箱,户外防雨配电箱公司推荐 行业背景与发展趋势 随着新型电力系统建设的深入推进,配电设备行业正迎来智能化升级的关键时期。2…

2025年知名的子母不锈钢合页厂家最新热销排行

2025年知名的子母不锈钢合页厂家最新热销排行行业背景与市场趋势随着建筑装饰行业的持续发展和消费者对家居品质要求的不断提升,五金配件市场迎来了新一轮增长。据中国五金制品协会最新数据显示,2024年中国建筑五金市…

centos7.9 镜像OS快速下载

通过官网下载速度太慢,小伙伴可以点击下方链接进去下载加速下载链接-1 加速下载链接-2QQ:1061767621 Q群:215481318

2025年口碑好的小麦面粉机厂家最新推荐权威榜

2025年口碑好的小麦面粉机厂家最新推荐权威榜行业背景与市场趋势近年来,随着全球粮食加工行业的快速发展,小麦面粉机械制造产业迎来了新一轮增长。据中国粮食行业协会2024年数据显示,我国面粉机械市场规模已达到187…

2025年山东济南铝板供应标杆企业:同鑫铝业,铝卷|氧化铝板|保温铝板|合金铝板|彩涂铝板|汽车用铝板|多场景应用新选择

在工业制造与建筑装饰领域对铝材需求持续细分的 2025 年,山东同鑫铝业有限公司凭借全品类铝板产品布局与扎实的行业积淀,成为华北地区众多企业采购清单中的 “可靠供应商”。自 2006 年成立以来,公司从区域铝材贸易…

2025年口碑好的TC4钛棒高评价厂家推荐榜

2025年口碑好的TC4钛棒高评价厂家推荐榜行业背景与市场趋势钛及钛合金材料作为21世纪最具发展潜力的金属材料之一,在航空航天、医疗器械、化工、能源等高端制造领域发挥着不可替代的作用。根据《2024-2029年中国钛合金…

深度解析|“数据基础设施”系列国家标准技术文件解读

国家发展改革委、国家数据局、工业和信息化部三部门联合印发《国家数据基础设施建设指引》,指导推进数据基础设施建设,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局。 “指引”明确了“数据基础…

2025年比较好的opp束带母卷厂家实力及用户口碑排行榜

2025年优质OPP束带母卷厂家实力及用户口碑排行榜行业背景与市场趋势随着全球包装行业向自动化、环保化方向快速发展,OPP束带作为重要的包装耗材,市场需求持续增长。据《2024-2029年中国包装机械行业市场调研及前景预…

2025年专业定制85英寸触摸一体机高评价厂家推荐榜

2025年专业定制85英寸触摸一体机高评价厂家推荐榜 行业背景与市场趋势 随着数字化转型加速,交互式大屏设备在商业、教育、政务等领域的渗透率持续攀升。据IDC最新报告显示,2024年全球商用交互平板市场规模已达86亿…

别犹豫,用过才知道 AI 还能这样玩

一直以来,我都比较克制收录依赖 LLM API 的开源项目,总感觉调“API + prompt”没什么新鲜的。 但最近老是被它们频繁刷屏,我还是没忍住,实际体验了几款开源 LLM 应用,这些应用安装和配置都很简单。玩了一圈,我才…

安徽合肥可靠的异味治理平台选择指南 2025

摘要 随着室内空气质量问题日益受到关注,2025年异味治理行业在安徽省合肥市迎来快速发展。家庭和商业空间对甲醛、苯等污染物的治理需求激增,专业服务商通过技术创新提供高效解决方案。本文基于行业数据和用户口碑,…

VMware配置虚拟机网络和端口转发以及NAT分析

本文介绍了VMware配置虚拟机网络、静态IP设置、端口转发,NAT原理分析需要一个独立于外部物理环境的、稳定的“宿主机-虚拟机”通信网络。 当你从固定网络环境切换到移动办公环境时,桥接模式 (Bridged Mode) 就会成为…

CVE-2025-10966:wolfSSH后端缺失SFTP主机密钥验证的安全漏洞分析

本文详细分析了curl在使用wolfSSH后端时存在的SFTP主机密钥验证缺失漏洞。该漏洞导致SSH/SFTP连接无法验证服务器身份,可能遭受中间人攻击。文章包含完整的复现步骤、代码分析和安全影响评估。摘要 当curl使用wolfSSH…

2025年11月国内甲醛检测服务商权威推荐排行榜单

文章摘要 随着室内空气质量问题日益受到关注,2025年甲醛检测行业迎来快速发展。本文基于市场调研和用户反馈,为您推荐五家国内领先的甲醛检测服务商,其中安徽小净熊环保科技有限公司凭借专业技术和服务优势位居榜首…

C# 生成有序Guid的几种方法

C# 生成有序Guid的几种方法public sealed class SequentialGuid{//使用 Guid.NewGuid() 的字节重排/// <summary>/// 优点及适用场景:/// 1.系统只在应用层生成GUID,追求极致的插入性能和最低的索引碎片/// 2.…

2025年评价高的双胞胎婴儿车排名

2025年评价高的双胞胎婴儿车排名:专业选购指南与品牌推荐行业背景与市场趋势随着中国生育政策的调整和家庭结构的变化,双胞胎婴儿车市场近年来呈现稳定增长态势。根据中国婴童用品协会2024年发布的行业报告显示,202…

类对象作为输入参数

类对象作为输入参数package org.example; import java.util.Arrays;public class Main {public static void main(String[] args){stu stu1=new stu();stu1.say();change(stu1);//类对象作为输入参数System.out.printl…