Multi-granularity Correspondence Learning from Long-term Noisy Videos--论文笔记

解决在视频语言学习中,如何有效地从长期(long-term)且带有噪声的视频数据中学习时间上的对应关系(temporal correspondence)。

噪声对应学习(Noisy Correspondence Learning)是指在处理视频和文本数据时,学习如何从带有噪声的、不完全对齐的多模态数据中提取有用的信息。在视频语言预训练(Video-Language Pre-training, VLP)的场景中,噪声对应通常指的是视频片段和相应的文本描述之间的不对齐问题。这种不对齐可以是粗粒度的,比如视频片段和文本描述的整体不匹配,也可以是细粒度的,比如视频帧和文本中的单词之间的不精确对应。

举个栗子:视频1展示了如何切洋葱,但对应的文本描述却是“准备蔬菜”,这里“准备蔬菜”可能包括切洋葱、削土豆等多种活动,这就是粗粒度的噪声。

使用软最大算子(Soft-Maximum Operator)识别关键词汇和帧,有助于模型在细粒度上识别和关注视频和文本中最重要的部分,从而提高对噪声的鲁棒性。

使用可对齐的提示桶(Alignable Prompt Bucket)存储与视频片段相关的一系列文本候选,通过使用最优传输(OT)或其他对齐算法,模型可以评估视频片段与文本候选之间的对齐质量。提示桶中的候选将根据它们与视频片段的对齐质量进行排序。

实现方法

在视频和文本对齐的上下文中,使用最优传输距离(Optimal Transport, OT)来最小化视频片段和文本描述之间的距离,从而实现对齐。具体过程如下:

1. **特征表示**:
   - 首先,将视频片段转换为特征表示,通常通过提取视觉特征来实现。
   - 同样,文本描述也被转换为特征表示,通常通过使用语言模型提取文本的嵌入。

2. **距离计算**:
   - 计算视频特征和文本特征之间的距离矩阵。这个距离可以是欧氏距离、余弦相似度或其他适合度量多模态数据相似性的距离度量。

3. **最优传输映射**:
   - 使用最优传输算法(如Sinkhorn算法)来找到两个特征集合之间的最优映射。这个映射将最小化将视频特征分配到文本特征的总成本。

4. **对齐学习**:
   - 利用OT映射来学习视频和文本之间的对齐。这可以通过最小化OT映射的成本函数来实现,同时考虑到模型的预测和实际的对齐情况。

5. **损失函数**:
   - 定义一个损失函数,该函数考虑了OT映射的成本以及模型预测的准确性。损失函数用于在训练过程中优化模型参数。

6. **模型训练**:
   - 使用梯度下降或其他优化算法来最小化损失函数,从而训练模型。

7. **故障负样本处理**:
   - 通过OT映射,模型可以识别出与噪声负样本相对应的视频帧和文本词汇,从而提高对噪声的鲁棒性。

8. **迭代优化**:
   - 通过多次迭代,不断优化OT映射和模型参数,直到收敛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2.4 Web容器配置:Tomcat

2.4 Web容器配置 2.4.1Tomcat配置1.常规配置2. HTTPS配置 *********** 2.4.1Tomcat配置 1.常规配置 在SpringBoot项目中,可以内置Tomcat、Jetly、Undertow、Netty等容器。 当开发者添加了spring-boot-starter-web依赖之后,默认会使用Tomcat作为Web容器…

基于Springboot+Vue的Java项目-网上点餐系统开发实战(附演示视频+源码+LW)

大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &am…

【EdgeBox-8120AI-TX2】Ubuntu18.04 + ROS_ Melodic + 星秒PAVO2单线激光 雷达评测

大家好,我是虎哥,好久不见,最近这断时间出现了一点变故,开始自己创业,很多事需要忙,所以停更了大约大半年,最近一切已经理顺,所以我还是抽空继续我之前的FLAG,CSDN突破十…

牛客NC314 体育课测验(一)【中等 图,BFS,拓扑排序 Java,Go、PHP】

题目 题目链接: https://www.nowcoder.com/practice/1a16c1b2d2674e1fb62ce8439e867f33 核心 图,BFS,拓扑排序,队列参考答案Java import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修…

数据库——实验9 存储过程的使用

1. 存储过程的定义 存储过程是一系列预先编辑好的、能实现特定数据操作功能的SQL 代码集,它与特定的数据库相关联,存储在SQL Server服务器上。用户可以像使用自定义的函数一样重复调用这些存储过程,实现它所定义的操作。 2. 存储过程的类型…

A26 STM32_HAL库函数 之 IRDA通用驱动 -- A -- 所有函数的介绍及使用

A26 STM32_HAL库函数 之 IRDA通用驱动 -- A -- 所有函数的介绍及使用 1 该驱动函数预览1.1 HAL_IRDA_Init1.2 HAL_IRDA_DeInit1.3 HAL_IRDA_MspInit1.4 HAL_IRDA_MspDeInit1.5 HAL_IRDA_Transmit1.6 HAL_IRDA_Receive1.7 HAL_IRDA_Transmit_IT1.8 HAL_IRDA_Receive_IT1.9 HAL_I…

后台管理系统加水印(react)

效果 代码图片 代码 window.waterMark function (config) {var defaultConfig {content: 我是水印,fontSize: 16px,opacity: 0.3,rotate: -15,color: #ADADAD,modalId: J_waterMarkModalByXHMAndDHL,};config Object.assign({}, defaultConfig, config);var existMarkModal…

镜舟科技荣获金科创新社 2024 年度金融数据智能解决方案奖

近日, 镜舟科技凭借领先的金融实时数仓构建智能经营解决方案,在“金科创新社第六届金融数据智能优秀解决方案评选”活动中,成功入选“数据治理与数据平台创新优秀解决方案”榜单。 金科创新社主办的“鑫智奖”评选活动,旨在展示…

【解决】Caused by: javax.net.ssl.SSLHandshakeException: PKIX path building failed

问题原因: 在Java8及高版本以上的版本在源应用程序不信任目标应用程序的证书,因为在源应用程序的JVM信任库中找不到该证书或证书链。也就是目标站点启用了HTTPS 而缺少安全证书时出现的异常 解决方案: 我使用的是忽略证书验证 public clas…

【配电网故障定位】基于二进制矮猫鼬优化算法的配电网故障定位 33节点配电系统故障定位【Matlab代码#82】

文章目录 【获取资源请见文章第6节:资源获取】1. 配电网故障定位2. 二进制矮猫鼬优化算法3. 算例展示4. 部分代码展示5. 仿真结果展示6. 资源获取 【获取资源请见文章第6节:资源获取】 1. 配电网故障定位 配电系统故障定位,即在配电网络发生…

Day17-Python基础学习之设计模式

设计模式 单例模式 某些场景下,我们需要一个类无论获取多少次类对象,都仅仅提供一个具体的实例,用以节约创建对象的开销和内存开销 # 单例模式 class StrTools:pass ​ s1 StrTools() s2 StrTools() # 这里是两个独立对象 print(s1) pri…

vscode微博发布案例

样例: CSS代码: * {margin: 0;padding: 0; }ul{list-style: none; }.w {width: 900px;margin: 0 auto; }.controls textarea {width: 878px;height: 100px;resize: none;border-radius: 10px;outline: none;padding-left: 20px;padding-top: 10px;font-size: 18px; }.controls…

UE4 相机围绕某点旋转

关卡(一个相机CameraActor,一个Cube(名叫Target)): 关卡蓝图里的逻辑(为了大家看得清楚,特意连得很紧凑,也比较乱,不然一张截图放不下): 只对Yaw 只Pitch: 同样对Roll: 围绕任…

汇编语言——将BX中的无符号数和有符号数以二进制、八进制、十六进制、十进制形式输出

文章目录 将BX中的无符号数以二进制形式输出将BX中的无符号数以八进制形式输出将BX中的无符号数以十六进制形式输出将BX中的无符号数以十进制形式输出将BX中的有符号数以十进制形式输出 将BX中的无符号数以二进制形式输出 利用移位指令会影响CF,默认dl30h(数字0)&a…

基于Springboot的社区帮扶对象管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的社区帮扶对象管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

软航H5 PDF签章产品经nginx代理之后浏览器中PDF盖章时提示:签章失败:网络错误 的问题排查及解决办法

目录 问题现象 问题排查思路 问题处理办法 附:软航H5 PDF签章产品介绍 软航电子签章系统 软航版式文档签批系统 问题现象 问题描述:在系统中集成了软航H5 PDF签章产品,软航H5 PDF签章产品的对应服务是通过nginx代理的,在奇安…

CDN的原理

CDN的原理 CDN的基本原理是依靠部署在各个区域大量缓存服务器的响应。当用户访问网站时,不需要访问站点的DNS服务器,而是利用全局负载技术将用户的请求直接指向最近的缓存服务器上,且保证服务器是正常工作的,访问的路径和内容是传…

leetcode199 二叉树的右视图

题目 给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例 输入: [1,2,3,null,5,null,4] 输出: [1,3,4] 解析 这道题首先能想到的办法,就是使用迭代法层次遍历&…

jupyter简要使用手册

目录 1. 启动 Jupyter Notebook 服务器: 2. 创建新笔记本文件: 3. 编写和执行代码: 4. 插入和编辑单元格: 5. Markdown 单元格的使用: 6. 保存和下载笔记本文件: 7. 其他功能: 1. 启动 Ju…

【PyTorch Lightning】.ckpt 是什么?里面有什么?

什么是检查点(checkpoint, ckpt)? 当模型在训练过程中时,随着其不断接收更多数据,其性能也会发生变化。在训练过程中保存模型的状态是一种最佳实践。这样可以在开发模型的过程中,在每个关键点上获得模型的…