详细介绍:AKS论文阅读

news/2025/10/23 17:25:22/文章来源:https://www.cnblogs.com/lxjshuju/p/19161166

1.摘要

background

多模态大语言模型(MLLMs)在处理长视频时面临一个核心挑战:它们的上下文窗口(Context Capacity)有限,无法一次性处理视频中的所有帧。因此,现有的视频MLLMs通常要求对视频帧进行采样,例如均匀采样(Uniform Sampling)。这种简便的采样方式很可能会丢失包含关键信息的帧,从而导致模型对视频内容的理解错误,给出不正确的答案。

innovation

1.提出自适应关键帧采样算法 (Adaptive Keyframe Sampling, AKS):作者提出了一个便捷而有效的即插即用(plug-and-play)模块AKS,用于在将视频输入MLLM之前,智能地挑选出信息量最丰富的关键帧。

2.两大核心准则 (Relevance & Coverage): AKS将关键帧选择问题建模为一个优化问题,其核心是最大化两个准则:

相关性 (Relevance):选出的关键帧应该与用户提出的问题(Prompt)高度相关。

覆盖度 (Coverage):选出的关键帧集合应该能全面地覆盖整个视频时间轴上的重要信息,避免因为只关注局部高相关性片段而丢失全局信息。

2. 方法 Method

整体 Pipeline:AKS作为一个即插即用的预处理模块,被插入到常规的视频MLLM流程中。

输入:一个长视频V和一个文本困难Q。

AKS模块处理:

开始,对视频进行初步采样(如1fps),得到一系列候选帧。

使用一个轻量的视觉语言模型(如CLIP或BLIP)计算每个候选帧Ft与问题Q之间的相关性分数r(Q, Ft)

AKS算法根据所有帧的相关性分数,执行一个递归的“判断-分裂”(Judge-and-Split)策略,来决定最终选择哪些帧。

输出:AKS模块输出M个被选中的关键帧的索引。

后续流程:这些被选中的关键帧被送入MLLM的视觉编码器,转换成Visual Tokens,再与问题文本一起输入LLM,最终生成答案。

各部分详解:AKS的核心是其自适应优化算法,它旨在平衡“相关性”和“覆盖度”。

相关性计算 r(Q, Ft):

输入:问题Q的文本嵌入,和某一帧Ft的图像嵌入。

做法:使用一个预训练好的、计算成本较低的图文匹配模型(如BLIP的ITM模块)来计算两者之间的相似度得分。得分越高,代表该帧与问题越相关。

输出:一个标量分数。

覆盖度估计与自适应采样 (ADA算法):

输入:所有候选帧的相关性分数序列,以及要采样的总帧数M。

做法:采用一种分层、递归的优化方法。

初始化:将整个视频时间轴 [0, T) 视为一个“桶”(bin)。

判断:在当前的桶内,计算所有帧的平均分s_all和得分最高的M帧的平均分s_top。如果s_top远超s_all(超过一个阈值S_thr),说明这个桶内的信息非常集中,此时算法会直接选择分数最高的Top-M帧(偏向相关性)。

分裂:否则,说明信息分布较散,算法会将当前的桶均分为两个子桶,并将采样名额M均分给这两个子桶(偏向覆盖度)。

递归:对每个子桶重复“判断-分裂”的过程,直到达到最大递归深度或分配完所有采样名额。

输出:最终被选中的M个关键帧的索引。

3. 实验 Experimental Results

实验材料集:

LongVideoBench:一个用于长上下文、交错视频语言理解的基准。

VideoMME:一个全面的多模态LLM视频分析评估基准。

主要实验结论:

与SOTA方法对比:

实验目的:验证AKS能否提升现有视频MLLMs的性能。

结论:将AKS应用于三个不同的基线模型(Qwen2-VL, LLaVA-OV, LLaVA-Video)后,在两个数据集上都取得了一致且显著的准确率提升。例如,LLaVA-Video-7B结合AKS后,性能甚至超过了一些采用更多帧的专有闭源模型(如GPT-4V)。

不同采样策略的诊断分析:

实验目的:比较AKS (ADA) 与其他采样策略,如均匀采样(UNI)、只看相关性的顶峰采样(TOP)和只看覆盖度的分桶采样(BIN)的效果。

结论:AKS (ADA) 在两个数据集上的综合表现最好。这证明了它成功地结合了TOP策略(适用于问题答案集中在视频某一刻的场景)和BIN策略(适用于答案分布在视频多个时间点的场景)的优点。

消融实验:

实验目的:探究不同组件对性能的影响,如候选帧的采样频率、计算相关性分数的视觉语言模型选择等。

结论:

即使将候选帧的采样频率从1fps降低到0.25fps,性能也只有轻微下降,证明AKS可以在保证效果的同时降低计算开销。

不同的VL模型(CLIP, BLIP)在不同信息集上各有优劣,这与数据集的问题类型和模型的预训练资料有关。

4. 总结 Conclusion

对于上下文窗口有限的MLLM来说,在处理长视频时,一个智能的视觉信息预过滤(pre-filtering)阶段至关重要。本文提出的AKS算法,通过同时考虑与用户难题的相关性和对视频内容的覆盖度,提供了一个很有效的预过滤方案,能显著提升模型对长视频的理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/944500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工业相机常用芯片 Sony Pregius系列 以更小的尺寸获得出色性能

Sony Pregius 系列全局快门 CMOS 传感器提供清晰无失真图像。第四代 Pregius S 延续了紧凑性能的传统优势,毫不夸张地说,它颠覆了传感器设计规则。Pregius S 采用背照式 (BSI) 传感器,用于缩小像素尺寸、提高分辨率…

出席2025年IDC中国CIO峰会,天翼云息壤赋能千行百业数智升级!

10月17日,2025年IDC中国CIO峰会暨数字化转型年度颁奖典礼在上海隆重举行。本次峰会聚焦数字化转型的前沿趋势、实践案例与未来走向,汇聚众多行业领袖、企业CIO以及专家学者,全力搭建高端交流平台,共同探讨数字化发…

Mac Jenkins 环境部署

Mac Jenkins 环境部署一、准备工作Jenkins 依赖 Java 运行环境(推荐 Java 11 或 17,兼容性更好)。通过 Homebrew 安装(推荐):# 搜索可用的 Java 版本 brew search openjdk # 安装 Java 11(LTS 长期支持版) bre…

UU 跑腿使用通义灵码实现 AI 原生应用架构升级全解析:行动指南

在 AI 技术加速落地企业场景的 2025 年,UU 跑腿启动了从传统云原生向“AI 云原生”架构跃迁的战略升级。感谢以下作者对本文内容的贡献:袁沼、王德冲、刘鹏浩、李洋、邱戈川 项目简介 在 AI 技术加速落地企业场景的 …

达梦数据库(DM)同机 异机备份到 MinIO(Java 实现 干货直给)

💾 达梦数据库(DM)同机 & 异机备份到 MinIO(Java 实现 干货直给)目的:记录一套可复用的达梦数据库备份方案,支持本地/远程部署,自动执行 dexp 导出 Schema,打包上传 MinIO,仅用于个人查阅。📦 核心逻…

氛围编程:IT领导者须知

执行摘要氛围编程能加速开发与创新,但企业高管必须加强治理、安全与审查流程以保护业务。 团队能快速测试想法并交付最小可行产品,从而缩短上市时间并提升对业务需求的响应能力。 开发人员与非技术人员能更高效地协作…

权威调研榜单:搅拌灌装机厂家TOP3榜单好评深度解析

搅拌灌装机作为包装设备领域的关键装备,在医药、食品、化工等行业中发挥着不可替代的作用。据2025年行业统计数据显示,国内搅拌灌装机市场规模已达85亿元,年均增长率稳定在15%左右。本文基于设备参数、生产效率及用…

Ubuntu布署Blazor Server

第一步:在ubuntu.24.04-x64系统中安装安装 ASP.NET Core运行时1. 安装基础工具​​ sudo apt install -y software-properties-common 确保系统拥有 add-apt-repository命令,用于添加软件源。​​2. 添加 Backports …

Day22-C:\Users\Lenovo\Desktop\note\code\JavaSE\Basic\src\com\File-FileTest1~4

File文件是非常重要的存储方式,在计算机硬盘中 即便断电或者程序终止,存储在硬盘中的文件也不会丢失 是java.io包下的类,File类的对象,用于代表当前操作系统的文件(可以是文件或者文件夹) 获取文件信息(大小,文…

实用指南:计算机中用8位如何计算最大值和最小值-128~127

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

权威调研榜单:徐州CCC产品认证公共服务平台TOP3榜单好评深度解析

随着企业对产品质量和市场合规性要求的不断提高,中国强制性产品认证(CCC认证)已成为众多行业进入市场的关键门槛。徐州作为淮海经济区的重要工业基地,其CCC产品认证公共服务平台的发展备受关注。本报告基于专业调研…

2025 年最新弹力丝机生产厂家推荐榜单:全面盘点国内优质品牌,为纺织企业提供精准选型参考荣腾弹力丝机/普来得弹力丝机/高速弹力丝机公司推荐

在纺织工业向高效化、节能化、智能化转型的关键阶段,弹力丝机作为化纤生产的核心设备,其性能优劣直接关系到企业的生产效率、产品质量与成本控制。当前市场上,弹力丝机厂家数量众多,但技术水平、产品质量与服务能力…

数据库锁-及事务隔离级别对应

引用:https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_5200837128726562540&sourceFrom=search_b1. 乐观锁- 定义:乐观锁假设大多数情况下不会有冲突,因此在操作时不加锁,而是在提交数据时检测冲…

权威调研榜单:落地立式护眼灯厂家TOP3榜单好评深度解析

随着健康照明需求的日益增长,落地立式护眼灯市场在2025年迎来快速发展。据行业数据显示,2024年国内护眼灯市场规模同比增长15%以上,其中教育及办公领域成为主要驱动力。本报告基于专业市场调研和技术测评,从产品性…

详细介绍:C++面向对象编程——引用

详细介绍:C++面向对象编程——引用pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco…

2025管道电预热/热力管道电预热设备厂家推荐新疆泓浩机电,专业高效施工保障

2025管道电预热技术革新:专业设备与高效施工的完美结合 热力管道电预热领域的技术挑战与突破 在当今城市基础设施建设中,热力管道电预热工程作为保障供热系统安全稳定运行的关键环节,正面临着前所未有的技术挑战。随…

2025年10月国内仪器类检测厂家全景解析报告,基于专业测评的技术、性能及市场优势深度分析

在工业化和信息化深度融合的背景下,仪器类检测行业作为支撑制造业升级的关键环节,其技术水平和市场表现备受关注。根据2025年最新行业调研数据显示,国内仪器类检测市场规模已突破500亿元,年均增长率达12%以上,其中…

2025二手发电机回收/买卖厂家推荐新疆泓浩机电,专业高效值得信赖

2025二手发电机回收/买卖厂家推荐新疆泓浩机电,专业高效值得信赖 行业现状与技术挑战 在当今能源需求持续增长的背景下,二手发电机市场呈现出蓬勃发展的态势。据统计数据显示,我国二手发电机年交易量已突破数十万台…

2025发电机/发电机组出租厂家推荐新疆泓浩机电,专业维修保养服务

2025发电机租赁行业深度解析:专业维修保养服务成核心竞争力 当前发电机租赁领域的技术挑战与行业现状 在电力供应领域,发电机及发电机组作为重要的备用电源设备,其租赁服务市场需求持续增长。然而,这一行业正面临着…

本地部署低代码构建平台 Langflow 并实现外部访问

Langflow 是一款适用于 RAG 和多智能体 AI 应用程序的低代码应用构建器。可以通过拖拽和连接不同功能模块,还有多模型和数据库支持,方便用户探索不同的大模型语言。本文将详细的介绍如何利用 Docker 在本地部署 Lang…