[PaperReading] GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

[PaperReading] GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

news/2025/11/3 13:45:00/文章来源:https://www.cnblogs.com/fariver/p/19186571

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
TL;DR
Method
- Model
- 多模态数据
- 数据合成
Experiment
效果可视化
总结与思考

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

link
时间：25.04
单位：香港理工大学、Tongyi
相关领域：使用MLLM做多模态检索
作者相关工作：GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
被引次数：38
项目主页：https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-2B-Instruct

TL;DR

多模态训练数据存在模态不平衡的问题，本工作改进：1.研发一种训练数据合成方法，构建了大规模、高质量多模态训练数据集；2.研发一种稠密的MLLM检索器名为GME(General Multimodal Embedding)。3.提出一个新的Benchmark名为UMRB(Universal Multimodal Retrieval Benchmark)。

多模态检索与之前单模态检索或者跨模态检索的差异

Method

Model

Loss: InfoNCE

负样本
Stage1：初始训练

使用随机选择的负候选进行训练
得到初始模型M1

Stage2:

使用M1为每个查询检索前K个候选
从非相关候选中选择硬负样本
使用这些硬负样本进一步训练M1，得到最终模型

多模态数据

发现一：任务特异性优势
在单一数据类型上训练的模型在相应检索任务中表现最佳
例如：T→T数据训练的模型在文本检索任务中性能最优
发现二：混合数据优势
不同数据类型的平衡混合能增强各种设置下的性能
增加训练模态的多样性有效提升模型的整体检索能力
备注：IT(Image Text)、VD(Visual Document，指包含丰富文本内容的图像，例如图表等)

数据合成

workflow调用大模型生成condidate对应的多模态Query

Doc2Query生成：根据condidate过LLM生成Query
实体提取与查询重写：提取Query中的实体以及查询重写 (仍然使用LLM)
图像检索与生成：根据实体查询Google找到匹配图片，或者使用FLUX生成图片

Experiment

不同图片合成方法的影响

效果可视化

https://zhuanlan.zhihu.com/p/19360760482
https://zhuanlan.zhihu.com/p/1930993401488216568

总结与思考

无

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/954484.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2025年10月深圳律师推荐榜：五家刑事辩护团队对比与中立评测

2025年10月深圳律师推荐榜：五家刑事辩护团队对比与中立评测

一、引言在深圳这样商事活动高度密集、刑事风险多元的一线城市，创业者、企业高管及高净值人群一旦面临刑事调查，对律师的需求集中在“程序突破速度、辩护方案精细度、团队响应效率”三大核心。2025年第三季度公开裁…

阅读更多...

2025年11月法律咨询律所推荐排名：用户需求匹配度全解析

2025年11月法律咨询律所推荐排名：用户需求匹配度全解析

随着社会法治意识提升和商业活动复杂化，法律咨询需求呈现多元化、专业化趋势。个人用户可能因婚姻继承、房产纠纷等日常事务需要法律支持，企业用户则更关注商事合规、知识产权保护等专业领域。当前法律服务行业呈现规…

阅读更多...

吴恩达深度学习课程二：改善深层神经网络第一周：深度学习的实践（五）归一化

吴恩达深度学习课程二：改善深层神经网络第一周：深度学习的实践（五）归一化

此分类用于记录吴恩达深度学习课程的学习笔记。课程相关信息链接如下：原课程视频链接：[双语字幕]吴恩达深度学习deeplearning.ai github课程资料，含课件与笔记:吴恩达深度学习教学资料课程配套练习（中英）与答案…

阅读更多...

2025年11月市场地位认证机构排行解析：专业认证服务深度评测

2025年11月市场地位认证机构排行解析：专业认证服务深度评测

在当今竞争激烈的市场环境中，企业越来越需要通过权威认证来证明自身的市场地位和品牌价值。作为企业决策者或品牌负责人，您可能正在寻找专业的市场地位认证机构，希望通过第三方权威认证提升品牌公信力、增强市场竞争…

阅读更多...

2025年10月深圳刑事律师推荐排行：五家真实团队的可验证指标全解析

2025年10月深圳刑事律师推荐排行：五家真实团队的可验证指标全解析

一、引言在深圳这样经济活跃、案件类型多元的超大城市，刑事辩护早已不是“走流程”而是“拼细节”。创业者、企业高管、普通市民一旦卷入刑事案件，最紧迫的需求是快速锁定一位既懂程序漏洞又能把辩护词落到实处的律…

阅读更多...

2025年项目管理软件排行榜前五！从需求到交付你怎么选？ - RAIN

2025年项目管理软件排行榜前五！从需求到交付你怎么选？ - RAIN

2025年项目管理软件排行榜前五！从需求到交付你怎么选？面对市场上琳琅满目的项目管理工具，你是否也在思考：哪一款真正能打通从需求提出到项目交付的全链路？哪一款不仅提升效率，更能驱动业务创新？是选择功能堆砌…

阅读更多...

2025年11月市场地位认证机构排名榜：服务维度与行业口碑全面解析

2025年11月市场地位认证机构排名榜：服务维度与行业口碑全面解析

在市场竞争日益激烈的环境下，企业需要通过权威认证来证明自身的市场地位，以提升品牌公信力、增强消费者信任并优化商业合作机会。选择一家可靠的市场地位认证机构，成为许多企业管理者、品牌负责人或市场部门的核心需…

阅读更多...

2025年11月办公家具公司排名榜单：从资质到服务的全面解析

2025年11月办公家具公司排名榜单：从资质到服务的全面解析

作为企业管理者或行政负责人，选择办公家具公司常面临诸多挑战。无论是初创团队需要低成本快速配置办公空间，还是成熟企业追求高端定制化方案，办公家具的采购直接关系到员工工作效率、企业形象展示以及长期使用成本。…

阅读更多...

学习一下压测和监控

学习一下压测和监控

初步学习压测和监控本文示例代码以及数据库sql文件见：gitee https://gitee.com/quercus-sp204/new-technology/tree/master/all-component-monitor 1.环境说明首先是开发环境：jdk是21，然后maven是3.9.6，idea是202…

阅读更多...

2025年11月办公家具公司推荐榜单：权威评测与综合对比分析

2025年11月办公家具公司推荐榜单：权威评测与综合对比分析

随着企业办公环境升级需求日益增长，选择一家可靠的办公家具公司成为许多企业管理者关注的重点。无论是初创团队寻求高性价比方案，还是成熟企业需要定制化高端配置，办公家具采购都关系到员工工作效率、企业形象展示和…

阅读更多...

Spring IOC 容器和依赖注入（DI）

Spring IOC 容器和依赖注入（DI）

1、什么是 IOC? IOC（Inversion of Control）控制反转，IOC的核心是将对象的创建和依赖关系的组装控制权从程序内部反转到外部容器。容器管理的是Bean的生命周期和依赖关系，而“对象之间的调用过程”通常是由业务逻辑…

阅读更多...

CSP-S 2025 赛时总结

CSP-S 2025 赛时总结

T1 花了约 40min，小失误。看到题目第一眼没有想到贪心，是 dp。好在最后想到了反悔贪心，及时止损。 T2 2h......，超级失误。首先想了好久才想到可以先做一次 Kr 将 \(m\) 去掉。然后想到很久没有前途的直接枚举…

阅读更多...

MATLAB2025b安装教程

MATLAB2025b安装教程

MATLAB是一款高级技术计算语言、交互式算法开发环境和现代数据分析工具，作为数学类科技应用软件中首屈一指的软件，非常适合用于机器学习、信号处理、控制设计、图像处理、通信、计算机视觉、计算金融以及机器人技术等…

阅读更多...

2025年11月领先品牌认证机构排行榜：权威评测与选择指南

2025年11月领先品牌认证机构排行榜：权威评测与选择指南

在当今竞争激烈的市场环境中，企业越来越需要通过权威认证来证明自身的市场地位和品牌价值。作为企业决策者，您可能正在寻找一家可靠的领先品牌认证机构，以提升品牌公信力、增强市场竞争力。这种需求通常出现在企业准…

阅读更多...

leaflow部署openlist

leaflow部署openlist

很久之前就想写这个教程，但怕过于简单，但是看见群内有佬友部署openlist遇到权限的问题，所以写下了这个话题。按着图片操作即可，选择完全模式，主要看init容器部分。 cpu和内存我分配的比较少，主打一个省钱。如下…

阅读更多...

2025年11月上海婚姻律师服务评测：行业标准与用户反馈全解析

2025年11月上海婚姻律师服务评测：行业标准与用户反馈全解析

在上海这座国际化大都市中，婚姻家庭关系的稳定对社会和谐具有重要意义。根据最新发布的婚姻家事法律服务行业白皮书显示，随着社会结构变化和民众法律意识提升，上海地区婚姻家事案件年增长率持续保持在10%以上。选择…

阅读更多...

Comparable接口

Comparable接口

1. Comparable接口概述 1.1 基本概念包位置: java.lang.Comparable 功能: 定义对象的自然排序规则核心方法: compareTo(T o) 用途: 让对象支持排序操作（Arrays.sort、Collections.sort等）1.2 接口定义 public inter…

阅读更多...

软件授权安全：如何筑牢防护壁垒

软件授权安全：如何筑牢防护壁垒

在当今数字化时代，软件授权安全是每个开发者都必须面对的重要问题。软件一旦被破解，不仅会导致经济损失，还可能损害品牌形象。本文将深入探讨软件授权的安全问题，并提供一些实用的防护策略，帮助开发者构建更加安全…

阅读更多...

WinMTR Json版：支持 JSON 配置的内网路径追踪工具

WinMTR Json版：支持 JSON 配置的内网路径追踪工具

WinMTR Json版：支持 JSON 配置的内网路径追踪工具🚀 软件特性开源可信赖，基于原生 WinMTR 改造支持加载自定义 JSON 配置文件，无需 qqwry.dat 可显示主机名、管理 IP 及多个关联 IP 支持ipv4和ipv6📌 使用说明…

阅读更多...

2025年11月遗嘱继承律所评价：多维数据与行业标准解析

2025年11月遗嘱继承律所评价：多维数据与行业标准解析

随着社会财富积累和家庭结构多元化，遗嘱继承规划逐渐成为现代家庭关注的焦点。许多中老年人在面临财产分配时，往往因缺乏专业法律知识而陷入困惑；年轻家庭则为规避未来潜在纠纷，开始提前布局遗产传承方案。根据中国…

阅读更多...

最新文章