[PaperReading] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

news/2025/10/18 22:51:54/文章来源:https://www.cnblogs.com/fariver/p/19148600

目录
  • VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents
  • TL;DR
  • Method
    • Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?
  • Benchmark
  • Q&A
    • Q:CLS, QA, RET, GD, Overall这些指标是什么含义?
    • Q:训练使用了多少训练集?
  • Experiment
  • 参考链接
  • 总结与思考
  • 相关链接

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

link
时间:2025.07
单位:Salesforce Research等
相关领域:多模态表征学习
作者相关工作:Rui Meng、Ziyan Jiang
被引次数:1705
项目主页:https://tiger-ai-lab.github.io/VLM2Vec/

TL;DR

之前的方法主要关注image与text,模态种类太少,未使用到视频与视觉文档模态信息,VLM2VecV2解决了该问题。同时,扩充了MMEB Benchmark,也设计了新的统一模型架构VLM2VecV2。

Method

Q:VLM2Vec-V2与原始VLM2Vec算法有什么区别?

  1. VLM2Vec仅支持文本与图像两种模态,而V2支持了更多,包括:视频、PDF、网页截图、语音(预留接口);
  2. Data Sampling Strategies:
  • on-the-fly batch mixing: 为每个数据集分配特定采样概率;
  • Interleaved Sub-batching: 将大批次划分为更小的​​子批次,每个子批次独立从单一数据源采样;
  1. multi-modal data formatting
    \(q_{inst}\)=inst+[VISUAL_TOKEN]+q
    inst: 构造出来的指令,例如,"Find a video that contains this image
    VISUAL_TOKEN:用来声明后续q的类型,具体值可以是 image_pad声明“图像”、video_pad声明“视频” 以及 无 声明“文本”

Benchmark

MMEB-V2 Benchmark与MMEB有什么区别? => 蓝色为V1的,红色为V2相对于V1扩充的。
image

Q&A

Q:CLS, QA, RET, GD, Overall这些指标是什么含义?

  • CLS指标​​指导特征学习优化
  • RET指标​​指导嵌入空间对齐
  • ​QA指标​​指导语义理解深化
  • GD指标​​指导细粒度感知提升

Q:训练使用了多少训练集?

Experiment

image

Ablation Study: 增加更多视觉模态是能继续涨点的
image

sub-size超参数的Ablation,最佳值为64
image

image

参考链接

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/1932043359238726091

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/939130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通用UI界面设计

首先需要找到你要复制的界面 ,分别复制.cs文件 , .Designer.cs文件 ,.resx文件 将其复制到你所需要的位置复制完之后 ,复制下其当前的一个路径 ,等下有用 这个时候你返回VS2022里面是看不到的 ,这个时候刚复制的…

ffmpeg使用

用MP4中制作M3U8: ffmpeg -i myVideo.mp4 -c copy -bsf h264_mp4toannexb output.ts ffmpeg -i output.ts -c copy -map 0 -f segment -segment_list playlist.m3u8 -segment_time 5 output%03d.ts 从M3U8转回MP4: ffm…

2025.10.17总结 - A

今天没课,下雨了,一直在宿舍了,挺爽的

Ubuntu创建python桌面图标

创建一个新的桌面文件来执行 Python 脚本,你可以按照以下步骤进行操作:首先,在你的 ~/.local/share/applications/ 目录下创建一个新的桌面文件,比如 python.desktop。使用文本编辑器打开这个文件,并输入以下内容…

标悬浮展开多级菜单

<!DOCTYPE html> <html lang="zh-cn"><head><meta charset="utf-8"><title>多级导航菜单</title><meta name="description" content="多级…

深入解析Pure恶意软件家族:从RAT到构建器再到开发者

关键要点 Check Point Research对一次ClickFix活动进行了取证分析,该活动通过虚假工作机会诱骗受害者,导致持续八天的入侵。威胁行为者部署了多种工具,包括Rust加载器、PureHVNC RAT和Sliver命令与控制框架。 在本出…

Nimble:让SwiftObjective-C测试变得更优雅的匹配库 - 指南

Nimble:让SwiftObjective-C测试变得更优雅的匹配库 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consol…

Ubuntu上配置Flask应用程序的Nginx和uWSGI

要在Ubuntu上配置Flask应用程序的Nginx和uWSGI,您可以按照以下步骤操作: 1. 安装Nginx: sudo apt updatesudo apt install nginx 2. 创建一个新的Nginx配置文件来处理Flask应用程序的请求: sudo nano /etc/ngin…

实验一 现代c++基础课程

#include <iostream> #include <string> #include <vector> #include <algorithm> template<typename T> void output(const T &c); void test1(); void test2(); void test3(); in…

平均融资利率求法及ORACLE语法解析

平均融资利率求法及ORACLE语法解析1.首先创造一个名为 PJRZCB_YD_RESULT_SET 的 OBJECT 类型注意其中不可以使用保留字段作为列名 , 如DATE 等, 否则可以创建 , 但无法被后续的 TABLE类型引用 CREATE OR REPLACE TYPE …

[Linux]如何列出被软链接的文件,列出被链接位置

# 先收集所有软链接及其目标find /path/to/search -type l -printf %p -> %l\n | while read link arrow target; do # 将相对路径转换为绝对路径(基于软链接所在目录) dir=$(dirname "$link") …

10.13课后作业

https://files.cnblogs.com/files/blogs/847771/10.13作业.rar?t=1760699755&download=true

【Linux】基础 I/O - 指南

【Linux】基础 I/O - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &…

不情愿算法学概论

本文翻译自论文 Pessimisal Algorithms and Simplexity Analysis,这是一篇近四十年前发表的恶搞性质的文章。原文标题显然是 neta 自 Optimal Algorithms(最佳算法)和 Complexity Analysis(时间复杂度分析)。有兴…

DIVCNT

数学过菜了DIVCNT 1

软考-系统架构设计师 NoSQL数据库详细讲解 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

OMP: Error #15: Initializing libiomp5md.dll报错解决强大的方案

OMP: Error #15: Initializing libiomp5md.dll报错解决强大的方案2025-10-17 19:03 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !im…

3. JVM 运行时数据区

本文内容基于个人对特定技术的理解和实践,或为对相关技术内容的整理与分享。请读者批判性阅读,如有疏漏或不准确之处,恳请斧正。 接续 2.JVM的类加载机制 类被加载到内存后,会保存在方法区或元空间中,根据JVM的划…

软工学习日志

今天上午尝试将hbase链接到idea,结果hbase出错了,后来发现是hadoop没启动,再试一次发现还是不行,一看log好像是上次启动在zookeeper残留的数据影响了,删除残余数据后重启hbase就okl