曹鹏wordpress建站seo视频网络建设与运维初级

bicheng/2026/1/20 6:28:04/文章来源:
曹鹏wordpress建站seo视频,网络建设与运维初级,自己设计一个网页,汇算清缴在哪个网站上做一、背景 1.1 多模态的发展 多模态理解模型具有广泛的应用#xff0c;比如多标签分类#xff08;Classification#xff09;、视频问答#xff08;videoQA#xff09;和文本视频检索#xff08;Retrieval#xff09;等。现有的方法已经在视频和语言理解方面取得了重大… 一、背景 1.1 多模态的发展 多模态理解模型具有广泛的应用比如多标签分类Classification、视频问答videoQA和文本视频检索Retrieval等。现有的方法已经在视频和语言理解方面取得了重大进展然而他们仍然面临两个巨大的挑战 1、在处理长序列时平衡计算效率和模型性能。 2、减少预训练和下游任务之间的领域差距。 多模态理解模型一般由三个模块组成文本编码器Text Encoder、视频编码器VIdeo Encoder和特征融合模块Feature Fusion。后两者通常会导致较高的计算成本。 对于特征融合模块很难做到既高效又有效。以前的一些工作比如VIOLET和Clover它们直接连接视频和文本编码器的输出然后由Transformer的Encoder进行特征融合此时模型的计算复杂度和显存消耗与级联序列长度的平方成正比当长文本与长视频输入到这些模型中时特征融合所消耗的显存消耗会大幅度上升。为了减轻计算负担一些工作如ALPROFrozenBiLMCLIPBert在特征融合之前通过均值池化或Class Token的方式压缩视频特征然而在多模态融合之前将所有信息压缩到一个向量中可能会丢失重要的细节。一些工作如Flamingo采用Sampler和随机查询来进行有效的视频特征压缩这种方法是次优的可能会损害视频特征的完整性。基于上述分析我们面临了一个难题如果去压缩特征容易导致特征的细节丢失如果不压缩处理特征特征融合的显存占用过大。此时如何平衡模型的计算量和准确性是特征融合模块的挑战。 图1 如何将预训练与下游任务相结合也是一项挑战。以前的预训练框架通常应用四个典型的预训练任务用于视频编码器优化的掩码帧建模MVM任务用于文本编码器优化的掩码语言建模MLM任务用于视频和文本编码器的联合优化的视频文本匹配VTM和视频文本比较VTC任务。在大规模视频文本数据集上进行预训练可以显著提高视频文本模型的性能。然而现有的预训练任务和下游任务之间仍然存在领域差距特别是在视频QA中。将videoQA引入预训练任务的困难在于构建合适的问答对。 1.2 模型的提出 为了应对这些挑战我们像图1d一样设计 MuLTI。它具有用于序列压缩和多模态融合的文本引导多路采样器Text-Guided MultiWay-Sampler。现有的方法如Flamingo通常使用可学习的查询向量Query通过采样器对视频特征进行采样。随机初始化的查询向量可能会丢弃重要的原始特征信息从而导致性能下降。我们在文本引导多路采样器中设计了一种轻量级的自适应池方法通过计算每个序列块的重要性来获得压缩特征。然后我们将压缩特征添加到采样特征中并使用短文本特征对长视频特征进行采样和融合。我们共享了采样器与特征融合模块的注意力权重并为采样器中的不同模态保留不同的前馈网络。 图1显示以前的模型a和b通过其冗长的级联特征融合消耗了大量的GPU内存。b和c都压缩视频特征这是一种常见的选择因为与文本相比它们的长度更大。然而由于视频特征中的信息丰富过度压缩可能会损害性能。相反我们设计了类似于d的MuLTI并引入了文本引导的多路采样器来有效地压缩文本特征以进行融合。由于文本更简洁准确我们使用精简的文本来指导视频特征采样从而提高了性能。 为了减少视频QA中预训练任务和下游任务之间的领域差距我们引入了一种新的预训练任务——多选建模Multiple Choice ModelingMCM并基于WebVid2M与CC3M数据集进行了预训练。MCM可以通过在大规模视频文本数据集上构建多项选择题回答任务来弥合预训练任务和下游任务之间的任务差距。它要求模型从随机构建的集合中找到与视频最匹配的文本描述这增强了视频和文本编码器的表示能力以及视频和文本特征之间的对齐。 我们提出了MuLTI这是一个高度准确和内存高效的视频和语言框架它通过特征采样和注意力模块实现了高效和有效的特征融合。我们提出了一种文本引导多路采样器Text-Guided MultiWay-Sampler来对长序列特征进行采样并促进视频和文本特征之间的交互从而降低内存成本并提高性能。我们设计了一种新的预训练任务称为多选建模MCM以建好预训练和下游任务之间的任务差距。在七个英语任务和一个汉语多标签分类任务上的实验结果证明了MuLTI的有效性。 二、模型结构 2.1 视觉与文本编码器 2.2 特征融合模块 图2 多模态融合模块的核心是Text-Guided MultiWay-Sampler如图2b所示。多路采样器由Transformer的Decoder修改而来。具体而言我们设计多路采样器模块来有效地压缩文本特征并融合不同的模态特征。 2.3 不同型号的MuLTI 在本节中我们考虑在有足够资源的情况下实现更高的性能。我们首先将视频编码器从VIT-B/16替换为VIT-L/14并将文本编码器从Bert-Base替换为Bert-Large。然后我们得到MuLTI-L。此外为了满足有限资源的训练要求我们将视频编码器从VIT-B/16替换为VIT-B/32并将文本编码器从12层减少到6层。不同模型的浮点运算FLOPs、参数Params和每秒帧数FPS显示在表1。 表1 三、模型的预训练 我们使用四个目标对 MuLTI 进行预训练包括三个经典的目标Masked Language Modeling MLMVideo Text MatchingVTMand Video Text ComparisonVTC。 在本节中我们重点介绍我们提出的一种新技术Multiple Choice ModelingMCM。 尽管MLM、VTC、VTM已经证明了它们在学习视频和文本表示方面的有效性但预训练任务和下游任务如视频问答之间仍然存在很大的领域差距。将视频问答引入预训练任务的难点在于如何构建合适的问答对。选择题是视频问答的常见形式。受多项选择题的启发我们发现原始配对视频文本描述是自然正确的答案。在这个基础上我们引入了Multiple Choice ModelingMCM这是一种新的预训练任务提高了模型对视频问答题的敏感性。具体来说它的结构如下这是一个四选择题。 [CLS]Question ? [SEP] Option 1: Answer 1. [SEP] Option 2: Answer 2. [SEP] Option 3: Answer 3. [SEP] Option 4: Answer 4. 我们将正确的描述随机放入 中并通过文本语料库获取正确描述以外的答案。问题也有多种选择如What does this picture describe?What does this video describe?What can we learn from the video?等。 MCM 不需要大量额外的手动注释或大量的数据预处理这是一种高效且可扩展的解决方案。 MCM 的动机是加强模型对 videoQA 任务的敏感性。 由于 MCM 可以提高模型从文本中提取视频相关内容的能力这也提高了模型在文本视频检索任务上的性能。 考虑到 MLM、VTM 和 VTC的有效性我们还采用它们进行预训练。MLM 以 15% 的概率随机屏蔽输入标记并用 [MASK] 替换它们之后根据视频和文本预测屏蔽的文本标记。VTC 将匹配的视频文本对视为正对将批次中的其他视频文本对视为负对。VTM 与 VTC 非常相似它预测视频和文本描述是否相互匹配。 VTM需要通过特征融合模块来融合特征基于交叉熵损失而不是对比损失来训练分类任务。MuLTI 的整体预训练目标是 四、实验 4.1 实现细节 i、预训练数据集 ii、下游任务与数据集 在视频问答方向MuLTI模型在五个广泛使用的开放视频QA任务上进行了评估 MSRVTT-QA基于MSRVTT的视频和字幕。该数据集有10k个视频其中有243k个问答对该数据集中有1.5k个候选答案。MSVD-QA基于MSVD的视频和文本描述。该数据集有1970个视频其中有50k个问答对该数据集中有2423个候选答案。TGIF-QA要求模型了解GIF视频的细节以回答有关它们的问题。在TGIF-QA中TGIF Action和TGIF Transition是多项选择任务而TGIF Frame是一项开放式视频QA任务。 在文本视频检索方向MuLTI模型在两个广泛使用Retrieval任务上进行了评估 MSRVTT包含来自YouTube的10K个视频和200K个注释。我们遵循VIOLET使用9k视频进行培训使用1k视频进行测试。DiDeMo包含来自Flickr的10K个视频其中有40K个注释。我们遵循CLIPBERT并将同一视频中的所有注释连接到标题中。 还有一个中文的多标签分类数据集 视频标签是在线广告排名模型所需的重要特征我们构建了一个大规模的内部多标签短视频数据集其中包含486k个短视频486k个文本字幕和21696个标签。每个视频文本对有多个标签。标签由来自短视频推荐平台的多位专业编辑进行交叉检查。我们还应用了一个在icdar挑战中具有最高性能的端到端文本检测仪为每一帧生成OCR。每帧OCR拼接后截断为512。 4.2 建议方法的性能比较 表2 MSRQ代表MSRVTT-QAMSVQ代表MSVD-QA 表2比较了MuLTI与现有方法在七个常用的公共数据集上的表现。 在视频问答任务中MuLTI在MSRVTT-QA、MSVD-QA、TGIF-Action、TGIF-Transition和TGIF-Frames等数据集上超过了所有已经发表的基线模型。表格中FrozenBILM的结果是没有使用Speech的。总的来说MuLTI在各种QA任务中实现了最先进的性能。 在文本-视频检索任务中最有竞争力的文本-视频检索方法是基于CLIP的Vision Transformer和BERT在400M文本-图像对上的预训练。然而尽管使用较少的预训练数据MuLTI在两个基准任务上仍然具有很强的竞争力。值得注意的是在使用DSL进行后处理后MuLTI的性能优于CAMoE、QB-Norm和TS2-Net。 表3 表3比较了MuLTI与现有方法在多标签数据集上的表现。 对于多标签分类我们将multi与VIOLET和ALPRO进行了比较但排除了FrozenBiLM因为其尺寸不适合在线部署。VIOLET和ALPRO不使用OCR因为它们会导致V100 GPU内存不足。为了进行公平的比较我们还在表3中报告了MuLTI的无OCR的性能MuLTI显著超过VIOLET和ALPRO。 图3 如图所示当训练期间帧计数增加时MuLTI保持的视频内存成本不到ALPRO和VIOLET的一半因为其高效的融合模块最大限度地减少了内存成本的增加。 表4 TGMS代表Text-Guided MultiWay-SamplerPB代表Pretraining BaselineMSRQ代表MSRVTT-QAMSVQ代表MSVD-QAMSRR代表MSRVTT-Ret 最后我们在表4中评估了我们的主要技术贡献。与基线模型相比我们的主要技术贡献提高了所有数据集的性能。文本引导多路采样器增强了MuLTI的多模式融合能力精确定位多余视频功能中的关键细节。MCM提高了模型的对齐能力缩小了预训练和下游任务之间的差距。 4.3 消融实验 i、文本引导多路采样器的重要性 表5 MSRQ代表MSRVTT-QAMSVQ代表MSVD-QA 图4 F代表FlattenE代表EncoderD代表DecoderS代表Sampler 我们在表5中比较了不同聚合方法的性能。结果表明Flatten优于其他聚合方法但需要大量的视频内存。在模型结构的分析中我们得知部分解码器在长序列中使用的内存比编码器少。虽然它可以很好地处理像MSRVTT-QA这样的数据集。然而但在处理长文本和视频时成本仍然很高。具体内存成本如图4所示。 正在上传…重新上传取消 表6 CV代表压缩视频特征CT代表压缩文本特征SS代表Shared-SamplerAP代表Adapt- Pooling Flamingo使用基于解码器的采样器浓缩视频特征这是次优的。文本特征更密集、更语义。通过使用文本查询来过滤冗余语言指导对于从视频表示中提取有用信息是必要的。表6比较了不同的压缩方法显示了文本压缩的优越性。 采样器和特征融合模块使用相同的解码器结构可以在不影响性能的情况下共享权重简化了模型优化。我们共享采样器和解码器的自注意力权重但为每个模态保留单独的FFN在保持性能的同时减少参数。与Flatten方法相比Shared-Sampler在MSRVTT-QA和MSVD-QA上的精度分别提高了0.32%和1.45%。 如表6所示采样器在压缩文本和视频特征时会导致较差的性能。采样器的随机查询向量具有丢失原始关键特征的风险我们设计了一个轻量级的聚合模块Adapt-Pooling以保留原有的功能。如表6所示Adapt-Pooling提高了MSRVTT-QA和MSVD-QA的准确性。此外我们探索了各种组合方法添加、连接和相乘都只有轻微的性能差异在MSRVTT-QA上使用连接和相乘分别获得了45.51%和45.45%的准确率。 为了验证这些技术的鲁棒性我们将其Shared-Sampler和Adapt-Pooling应用于压缩视频特征这也提高了性能。 ii、Multiple Choice Modeling的重要性 正在上传…重新上传取消 表7 PB代表Pretraining BaselineMSRQ代表MSRVTT-QAMSVQ代表MSVD-QAMSRR代表MSRVTT-Ret MCM旨在通过将视频QA集成到预训练中来弥合预训练和下游任务之间的差距增强模型对视频和句子主题的关注以更好地提取多模式特征。 我们使用经典的MLM、VTM和VTC任务来预训练模型作为基线。由于MVM会导致视频内容损坏与其他任务发生冲突在我们最初尝试将MVM包括在预训练中时我们观察到性能下降如表7所示。因此我们决定不使用MVM进行预训练。为了证实MCM的鲁棒性我们还在使用MVM的基础上添加了MCM进行预训练。结果表明MCM仍然显著提高了模型的性能。与用基线预训练的模型相比MCM通过缩小预训练和下游任务之间的任务差距显着提高了模型在视频QA任务上的性能。MCM对多模态特征对齐的促进提高了模型的检索任务性能。如表7所示用MCM预训练的模型在视频QA和检索任务中都优于基线证明了其有效性。 五、未来工作 1、在Audio上进行探索引入音频信息提升性能。2、进一步降低模型中的计算量最大的VIT的FLOPs与显存占用。 3、优化蒸馏模型模型保证性能不损失的情况下降低VIT的FLOPs与显存占用。 ● 论文标题 MuLTI: Efficient Video-and-Language Understanding ● 论文作者 刘波、陈云阔、程孟力、徐家琪、施兴 ● 论文PDF链接 https://arxiv.org/abs/2303.05707

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/88600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阎良区网站建设自动生成ui界面

一、概念 request对象和response对象是通过Servlet容器(如Tomcat)自动创建并传递给Servlet的。 Servlet容器负责接收客户端的请求,并将请求信息封装到request对象中,然后将request对象传 递给相应的Servlet进行处理。类似地&…

横沥镇网站建设公司上海百度公司总部地址

随着互联网的快速发展,物流行业也逐渐实现了数字化转型。为了满足消费者对更加便捷、高效的服务需求,许多物流企业选择制作自己的小程序。本文将通过乔拓云网后台,带你轻松搭建物流小程序,主要分为以下几个部分: 一、进…

微信扫码抢红包网站做wordpress果酱二维码

文章目录 LeetCode每五日一总结【01/01--01/05】2023/12/31今日数据结构&#xff1a;二叉树的前/中/后 序遍历<非递归> 2024/01/01今日数据结构&#xff1a;二叉树的 前/中/后 序遍历 三合一代码<非递归>今日数据结构&#xff1a;二叉树的 前/中/后 序遍历 三合一代…

网站建设叁金手指花总6绿色环保材料网站模板

文章目录vue一、js基础二、封装缓存三、组件1、组件创建、引入、挂载、使用2、组件间的传值- 父组件主动获取子组件的数据和方法&#xff08;子组件给父组件传值&#xff09;&#xff1a;- 子组件主动获取父组件的数据和方法&#xff08;父组件给子组件传值&#xff09;&#x…

常州找工作哪个网站好苏州市住房和城乡建设局官方网站

ToUpper()/ToLower() 作用&#xff1a;将字符串中字符转换为大写/小写字符&#xff0c;仅对字符有效&#xff0c;返回转换后的字符串。 使用&#xff1a;字符串变量名.ToUpper() / 字符串变量名.ToLower() 使用实例如下&#xff1a; using System; using System.Collection…

国外设计灵感网站百度竞价推广价格

1.4 计算机网络的定义和分类 一、计算机网络的定义&#xff08;无唯一定义&#xff09;二、计算机网络的分类&#xff08;从不同角度分类&#xff09;1、交换方式2、使用者3、传输介质4、覆盖范围5、拓扑结构 笔记来源&#xff1a; B站 《深入浅出计算机网络》课程 一、计算机…

河南网站推广优化多少钱百度云服务器做php网站

chardet.detect 是 Python 的一个库&#xff0c;用于检测给定字节串的字符编码。其检测原理基于统计学方法。 具体来说&#xff0c;chardet.detect 使用了一种叫做统计字符 n-gram&#xff08;通常为 n1 或 n2&#xff09;的方法。它会统计字节串中每个字符或字符对出现的频率…

网站做众筹需哪些条件宁波市公共资源交易中心官网

idea搭建可运行Servlet的Web项目[maven] 1. new Project File > new > Project… 2. 填写 GroupID\ArtifactID GroupID 是项目组织唯一的标识符&#xff0c;实际对应JAVA的包的结构&#xff0c;是main目录里java的目录结构。 ArtifactID 是项目的唯一的标识符&#xff0…

做美股的数据网站常用网站设计缩略图

JDK 动态代理是通过 JDK 中的 java.lang.reflect.Proxy 类实现的。下面通过具体的案例演示 JDK 动态代理的使用。 1. 创建项目 在 MyEclipse 中创建一个名称为 spring 的 Web 项目&#xff0c;将 Spring 支持和依赖的 JAR 包复制到 Web 项目的 WEB-INF/lib 目录中&#xff0c;…

网站推广方法主要有什么咸阳网站建设xymokj

目录 2023全球数字贸易创新大赛 数据要素:数字经济最核心的资源。(存储,流通,使用)

ps网站首页设计图小程序会员系统开发

文章目录 几个简单命令开机关机重启查看当前目录切换当前目录列出当前目录下的目录和文件列出指定目录下的目录和文件清屏查看/设置时间 目录和文件目录概要目录详细说明相对路径和绝对路径 上古神器vi创建/打开文件vi 的两种模式vi 的常用命令 用户管理组管理用户管理修改用户…

做网站设计的电话自己搭建网站需要多少钱

观察下面的加法算式: 其中,相同的汉字代表相同的数字,不同的汉字代表不同的数字。 请你填写“三羊献瑞”所代表的4位数字(答案唯一),不要填写任何多余内容。 答案 代码 public class _03三羊献瑞 {public static void main(String[] args) {//c 生 b 瑞 g 献 d 辉…

衡水网站开发报价手机网站列表模板

从github上下载了源码&#xff0c;选择了2.2.3分支后修改 适配后的代码下载&#xff0c;本地install用&#xff1a; nacos2.2.3_dm: 适配dm数据库 (gitee.com) alibba加了很多检查&#xff0c;跳过检查install命令&#xff1a; mvn -Prelease-nacos -Dmaven.test.skiptrue -D…

建设网站的步骤seo能建网站的app

在当今数字化的世界中&#xff0c;远程控制软件已经成为我们日常生活和工作中不可或缺的一部分。在众多远程控制软件中&#xff0c;Parallels Client for Mac以其独特的功能和出色的性能脱颖而出&#xff0c;让远程控制变得更加简单、高效和灵活。 Parallels Client for Mac是…

网站外链平台的建设方法平台类型(至少5个)?公司网站建设工作室

京东似乎正在从一个大闸蟹的物流服务商、销售商&#xff0c;转变为一个大闸蟹的“供货商”。 作者|斗斗 编辑|皮爷 出品|产业家 阳澄湖连续几天的降雨&#xff0c;使得通往蟹塘的路异常难走。 长期驻扎此地的京东相关负责人蹲在蟹塘边的小路上&#xff0c;指着蟹塘说道…

网上做一道题2元的网站轻量级服务器wordpress密钥

今天我们来介绍一下MySQL数据类型&#xff0c;任何数据库中数据表的每个字段都必须设定数据类型&#xff0c;合适的数据类型可以有效的节省存储空间&#xff0c;有效的提升数据的计算性能&#xff0c;那么常见的数据类型有哪些呢&#xff0c;一起来看看吧 类型分类 类型 取值…

白种女人做爰网站天津seo建站

目录 一、用正则表达式判断输入是否符合货币格式 二、用double.TryParse()判断输入是否符合货币格式 一、用正则表达式判断输入是否符合货币格式 // 判断输入是否货币合格 using System.Text.RegularExpressions; namespace IsCurrency_Format {partial class Program{stati…

建设银行内部网站电影网站标题怎么做流量多

su //输入密码 echo 50 > /sys/class/hwmon/hwmon1/pwm1 //执行CtrD命令退出

平台类网站有哪些天津公司网站开发

-- 日、时、分、秒&#xff0c;这是计时的单位&#xff0c;惜时就应该惜日、惜时、惜分、惜秒。 用 Java 来读取 Excel 文件&#xff0c;检查每一行中的 URL&#xff0c;并将不符合条件的行标记为红色。以下是一个简单的示例&#xff0c;使用 Apache POI 进行 Excel 操作&#…