长视频理解与生成技术突破

news/2025/10/16 15:13:47/文章来源:https://www.cnblogs.com/codeshare1135/p/19145727

长视频理解与合成技术进展

在今年的计算机视觉与模式识别会议(CVPR)上,某中心视频团队展示了四篇论文,涵盖了我们在前沿问题研究上的广泛工作范围。

基于电影元数据的场景表示学习

在《Movies2Scenes:使用电影元数据学习场景表示》论文中,我们提出了一种新颖的对比学习方法,仅使用常见的电影元数据来学习通用场景表示。在使用多个基准数据集评估的多样化任务中,使用我们表示的模型始终优于使用现有最先进表示的模型。

值得注意的是,在长视频理解(LVU)数据集的七个分类任务和两个回归任务中,我们学习的表示平均提高了7.9%和9.7%。这项工作朝着构建首个通用电影理解基础模型迈出了重要一步。

选择性结构化状态空间模型

在另一篇论文《选择性结构化状态空间用于长视频理解》中,我们扩展了最近提出的S4模型,采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。

我们的方法始终比之前的最先进模型更准确,在一个数据集上提高了9.6%,同时内存占用减少了23%。

多模态模型的动态推理

我们的论文《基于 grounding 的视觉语言模型的动态推理》探索了大型视觉语言模型中的计算冗余问题,通过动态跳过网络层、丢弃输入标记和融合多模态标记来解决这一挑战,这些操作都基于输入的图像-文本对进行条件化。

我们的结果显示,我们可以在多个下游任务上将最先进模型的运行效率提高高达50%,而准确率仅下降0.3%。

标签高效的图像协调方法

最后,我们的论文《LEMaRT:标签高效掩码区域变换用于图像协调》解决了训练图像协调模型需要大量标注数据的问题。为此,我们的方法通过模拟图像协调模型预期要消除的外观缺陷来自动生成训练数据。

当仅在一个标准基准(iHarmony4)的50%训练数据上进行微调时,我们的方法比之前的最先进方法提高了0.4dB(均方误差改进约9%);在使用完整训练数据集训练时,提高了1.0dB(MSE改进约21%)。

电影理解基础模型的构建

"基础模型"通常涉及(i)单个大型模型,(ii)在大量未标记数据上训练,并且(iii)可以驱动多个下游任务。虽然存在几个通用的视觉和文本基础模型,但在我们的工作之前,还没有专门针对电影理解的基础模型。

这部分是因为直接将现有的视觉或文本基础模型应用于电影理解效果有限,考虑到电影内容与用于训练这些模型的网络爬取图像和文本之间存在大的领域差距。

为了解决这些挑战,我们提出了一个新颖模型,在从数千部电影中自动识别的超过500万个场景上训练,包含超过4500万帧。我们的模型不需要任何手动标注,仅依赖于常见的电影级别信息(类型、剧情简介等)。

降低长视频理解的模型复杂性

在某中心视频,我们正在开发最先进的AI模型用于电影内容理解,以促进各种下游用例。实现这一目标的关键技术问题之一是有效建模复杂的时空依赖关系,特别是在长视频如电影和电视节目中。

最近提出的结构化状态空间序列(S4)模型以其线性复杂度在这个领域提供了有希望的方向;然而,我们经验证明,像S4模型那样平等对待所有图像标记可能会不利影响模型的效率和准确性。

为了解决这一挑战,我们提出了一个新颖的选择性S4(即S5)模型,它采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。

使用强化学习进行多模态模型的动态推理

支持在多数据模态上运行的Transformer模型以及大规模预训练方法的可用性,已经在联合图像语言模型方面取得了显著进展。然而,这些模型计算成本高,因此运行时效率低,使其难以应用于某中心视频的大型目录。

为了解决这一挑战,我们提出了一个模型,通过动态跳过多模态网络的层、从语言主干、图像主干或两者中修剪输入标记,以及融合来自独立主干的标记来节省计算,这些操作都基于输入的图像-文本对进行条件化。

提高图像协调模型的标签效率

图像协调是更广泛的图像合成问题的重要组成部分,其中通过从一个图像中提取前景区域并将其以照片般真实的方式转移到另一个图像来创建新图像。

图像协调的主要技术挑战是从源图像提取的前景与目标图像背景之间的外观不匹配。图像协调旨在调整前景的外观,使其与背景兼容。

为了解决这一挑战,我们引入了一种新颖的预训练图像协调模型方法LEMaRT,它通过模拟图像协调模型预期要消除的缺陷类型来自动生成训练数据。

使用我们的LEMaRT方法预训练我们的SwinIH模型,在图像协调方面达到了新的最先进水平,同时具有标签效率,即与现有方法相比,微调消耗的标注数据更少。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938278.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 Android 11 上构建 WiFi 热点并发协助(同时开启 STA + AP 模式)

在 Android 11 上构建 WiFi 热点并发协助(同时开启 STA + AP 模式)2025-10-16 15:11 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto …

27 LCA模拟赛3T3 三等分的数组 题解

三等分的数组 题面 小 Y 有一个长度为 \(n\) 的数组,数组中的每个数都是一个 \(1 \sim m\) 之间的正整数。 小 Y 决定将这个数组分成若干个三元组:每个三元组要么由三个相同的数字组成,要么由三个连续的数字组成。换…

26 LCA模拟赛3T2 连边 题解

连边 题面 给定一张初始 \(n\) 个点,没有边的图。 给定 \(m\) 表示有 \(m\) 个时刻,第 \(i\) 个时刻会将 \(gcd(a,b) = m - i + 1\) 某些点连起来。 有 \(q\) 个询问,每次询问给定 \(x, y\),你需要回答 \(x, y\) 最…

28 S2模拟赛T2 开会council 题解

council 题面 给定一棵 \(n\) 个节点的树,每个节点有黑白两种颜色,还有 \(k\) 个特殊节点。 设距离表示两个点间路径上边权的最大值。 我们每次指定一个白点,对于每个黑点,设 \(disb\) 表示其到任意一个特殊点距离…

25 LCA模拟赛3T1 ROI 2012马赛克 题解

马赛克 题面 题解 这道题想了很久如何快速求出一个点最右边或者最左边的不相容点,但是没有什么思路。 我们将题目中给定的有序对抽象为 \((a,b)\)。 最后 xpigeon 带神给出了一个结论,就是一段序列中只要出现了两个互…

实验记录2025/10/14

我现在是把picsize从640变化到了960,而且把原先7000张的训练数据集精简成了3600张的数据集 下面是跑出来的结果: Validating runs/detect/yolo11-tea-yolo11s36/weights/best.pt... Ultralytics 8.3.182 🚀 Python…

个人微信开发框架

个人微信开发框架、微信二次开发api、个人微信开发api接口,微信个人号开发API WTAPI开放平台是基于微信开放平台的二次封装API服务,开发者可以使用本服务来处理微信中的各种事件,并可以通过后台调用对应的 API 来驱…

投资指标技术分析

投资指标技术分析指数平滑移动平均线(MACD) 移动平均线收敛差异(MACD)是一种振荡类型的指标,该指标被交易者广泛用于技术分析(TA)中。MACD是一种趋势跟踪工具,利用移动平均线来确定股票、加密货币或其他可交易…

linux源码编译python

1. 下载python源码 python官网(https://www.python.org/)下载源码包 例如python3.8: Index of /ftp/python/3.8.9/ 2. 安装依赖yum install -y zlib zlib-devel sqlite-devel libffi-devel gcc openssl-devel libff…

uni-app x开发商城系统,Swiper 轮播图

一、概述 该组件一般用于导航轮播,广告展示等场景,可开箱即用,具有如下特点:自定义指示器模式,可配置指示器样式 3D轮播图效果,满足不同的开发需求 可配置显示标题,涵盖不同的应用场景 具有设置加载状态和嵌入视…

昂瑞微OM6651A:国产车规级蓝牙芯片的破局者

OM6651A——第二颗车规级低功耗蓝牙芯片,成功通过涵盖机械应力、温湿度循环等7大类共41项极限测试,斩获赛宝实验室颁发的AEC Q-100 Grade1认证(-40~125℃)。这颗采用3x2.7x0.5mm极薄LGA封装的芯片,以超低功耗与越…

2025年中央空调/锅炉房/机房运维服务厂家最新权威推荐榜:专业托管与维修外包一体化解决方案精选

2025年中央空调/锅炉房/机房运维服务厂家最新权威推荐榜:专业托管与维修外包一体化解决方案精选随着我国工业化和城市化进程的加速推进,暖通空调及动力设备运维服务行业迎来了前所未有的发展机遇。作为建筑能源系统的…

【终极解决方案】api-ms-win-core-path-l1-1-0.dll 缺失?Win7/Win10/Win11完整修复教程

许多用户在运行游戏、设计软件或系统程序时,遇到“api-ms-win-core-path-l1-1-0.dll 缺失”错误提示。本文详细解析该 DLL 文件的作用、报错原因,并提供三种高效修复方案:一键DLL修复工具、手动注册方法以及 Win7 专…

2025 年最新推荐分切机实力厂家权威榜单:覆盖全自动高速、铝箔、薄膜、高精度等机型,为软包装企业精选优质设备

随着软包装行业不断升级,分切机作为核心生产设备,其品质与性能直接关系到企业的生产效率、产品质量及市场竞争力。当前市场上,分切机厂家数量繁杂,部分厂家设备存在精度不足、材料适配性差、售后服务缺失等问题,导…

打破应用跳转流失困局,提升推广链接转化率

在移动互联网生态中,应用是用户高频使用的核心入口,而跳转应用是连接用户需求与服务落地的核心桥梁,能够提升用户活跃度与留存。传统流程需先跳转网页再手动引导至应用市场,多一步操作导致流失率增加,尤其影响广告…

《Vue3 + Vite + Pinia 实现后台管理系统:路由权限控制与动态菜单渲染》

《Vue3 + Vite + Pinia 实现后台管理系统:路由权限控制与动态菜单渲染》从零构建 Vue3 后台管理项目,包括 Vite 项目初始化、Pinia 状态管理(用户信息 / 权限存储)、基于角色的路由权限控制(router.beforeEach 拦…

检查cpu是否支撑minio方法

#!/bin/sh flags=$(cat /proc/cpuinfo | grep flags | head -n 1 | cut -d: -f2) supports_v2=awk "/cx16/&&/lahf/&&/popcnt/&&/sse4_1/&&/sse4_2/&&/ssse3/ {found=1}…

性能测试进阶秘籍:如何用JMeter分布式压测挖掘系统极限潜

关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集 "我们的系统明明配置很高,为什么单机压测TPS死活上不去?"这是无数工程师在性能测试中遇到的共同困惑。最近在一次真实项目基准…

Codeforces Round 1058 (Div. 2) A~E

A - MEX Partition 思维? 求 \(a\) 的 \(\text{mex}\)。 关于证明,参考官方题解:首先,让 \(m=\operatorname{mex}(A)\) 。我们可以忽略所有大于 \(m\) 的元素。这是因为由于 \(m\) 是 mex, \(m\) 不会出现在 \(A\…

2025 年生料带厂家最新推荐排行榜:解析优质品牌优势,涵盖新型、彩色、液态等多类型生料带厂家企业推荐

在螺纹密封领域,生料带的质量与性能对家庭生活、工业生产的安全稳定至关重要。当前市场上,部分生料带密封性能差,导致家庭水管、燃气管道漏水漏气,引发资源浪费与安全隐患;工业场景中,许多产品耐温、耐腐蚀性不足…