生成式AI实现多模态信息检索技术突破

news/2025/10/12 9:02:18/文章来源:https://www.cnblogs.com/codeshare1135/p/19136260

利用生成式AI进行多模态信息检索

过去十年间,机器学习主要依赖嵌入概念:模型学习将输入数据转换为向量,使得向量空间中的几何关系具有语义含义。例如,嵌入表示相近的词语可能具有相似含义。这种嵌入概念催生了明显的信息检索范式:将查询嵌入表示空间,模型选择嵌入最接近的响应。这也适用于多模态信息检索,因为文本和图像可以嵌入同一空间。

然而,随着生成式AI主导机器学习研究,我们在2025年计算机视觉与模式识别会议(CVPR)上发表了篇论文,为生成式AI时代更新了基于机器学习的信息检索方法。我们的模型名为GENIUS(通用多模态搜索生成框架),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。

生成式检索的优势

与基于嵌入的检索需要将查询向量与每个可能的响应向量进行比较不同(如果图像目录或文本语料库足够大,这将非常耗时),我们的模型将查询作为输入并生成单个ID代码作为输出。这种方法之前已有尝试,但GENIUS显著改进了先前基于生成的信息检索方法。

在两项不同数据集上使用三种不同指标的测试中,GENIUS在检索一个、五个或十个候选响应时的检索准确率比先前最佳生成检索模型提高了22%至36%。当我们随后使用传统的基于嵌入的方法对顶部生成的响应候选进行重新排序时,性能进一步提高了31%至56%,显著缩小了基于生成的方法与基于嵌入的方法之间的差距。

范式转变

信息检索是从大型数据库中查找相关信息的过程。传统的基于嵌入的检索将查询和数据库项都映射到高维空间,并使用余弦相似度等度量标准来衡量相似性。虽然有效,但随着数据库增长,这些方法面临可扩展性问题,因为索引构建、维护和最近邻搜索的成本不断增加。

生成式检索已成为有前景的替代方案。生成模型不嵌入项目,而是基于查询直接生成目标数据的标识符。这种方法实现了恒定时间检索,无论数据库大小如何。然而,现有的生成方法通常是任务特定的,在性能上不及基于嵌入的方法,并且难以处理多模态数据。

GENIUS的创新

与先前局限于单模态任务或特定基准的方法不同,GENIUS泛化适用于文本、图像和图文对的检索,保持高速度和竞争力准确性。其相对于先前基于生成的模型的优势基于两个关键创新:

语义量化:在训练期间,模型的目标输出ID通过残差量化生成。每个ID实际上是一个代码序列,第一个代码定义数据项的模态——图像、文本或图文对。后续代码更具体地定义数据项在表示空间中的区域:共享第一个代码的项位于同一一般区域;共享前两个代码的项在该区域中更紧密地聚集;共享前三个代码的项更紧密地聚集,依此类推。模型尝试学习从输入编码中复制代码序列。

查询增强:这种方法产生的模型能够为熟悉类型的对象和文本生成准确的ID代码,但可能难以泛化到新数据类型。为了解决这个限制,我们使用查询增强。对于代表性的查询-ID对样本,我们通过在表示空间中的初始查询和目标ID之间插值来生成新查询。这样,模型学习到各种查询可以映射到同一目标,这有助于其泛化。

实验结果

在使用M-BEIR基准的实验中,GENIUS在COCO数据集的文本到图像检索中,Recall@5比最佳生成检索方法高出28.6分。通过基于嵌入的重新排序,GENIUS在M-BEIR基准上通常获得接近基于嵌入基线的结果,同时保留了生成检索的效率优势。

GENIUS在生成方法中实现了最先进的性能,并缩小了生成方法与基于嵌入方法之间的性能差距。随着数据集增长,其效率优势变得更加显著,保持高检索速度,而无需基于嵌入方法典型的昂贵索引构建。因此,它代表了生成式多模态检索的重要进展。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/935241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在运维工作中,如何过滤某个目录在那边什么路径下面?

在 Linux 中,如果你想要查找某个特定目录位于哪个路径下(即查找目录的位置),可以使用以下几种常用的命令来“过滤”或搜索该目录。以下是几种最实用的方法:✅ 1. 使用 find 命令(最常用、最强大) find /path/to…

完整教程:安卓中,kotlin如何写app界面?

完整教程:安卓中,kotlin如何写app界面?pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

移动固态硬盘插入电脑后提示“应该格式化”或“文件系统损坏”如何修复?

移动固态硬盘插入电脑后提示“应该格式化”或“文件系统损坏”如何修复?pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family:…

PHP 15 个高效开发的小技巧

PHP 15 个高效开发的小技巧 在 PHP 开发中,你不需要依赖新框架也能显著提升效率。真正有用的是那些能节省时间、减少重复工作的小技巧。本文将介绍一些简单但强大的 PHP 技巧,帮助你编写更简洁、更健壮的代码。 原文…

AI元人文构想研究:人类拥抱AI的文明新范式

AI元人文构想研究:人类拥抱AI的文明新范式 摘要:本文提出"AI元人文"理论构想,旨在回应人工智能时代技术与人文价值深度融合的文明需求。该构想基于"价值能量系统"理论模型,通过"悟空之眼…

华为发布星河AI广域网解决方案,四大核心能力支撑确定性网络 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【汇编】汇编语言运行过程

【汇编】汇编语言运行过程 汇编的运行分为以下三个步骤:编辑源程序 汇编源程序及连接源程序 运行.exe文件1. 编辑源程序 利用编辑器编辑源程序,文件扩展名为.ASM。 2. 汇编源程序 汇编语言源程序可使用下列简化命令进…

设计模式与原则精要 - 详解

设计模式与原则精要 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", …

电感式传感器 - 实践

电感式传感器 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "…

云栖2025 | 阿里云自研大素材平台 ODPS 重磅升级:全面支持AI计算和服务

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

CSP-J/S2024第二轮提高级题目知识构成分析报告

CSP-J/S2024第二轮提高级题目知识构成分析报告CCF ​已认证机构号本报告基于《全国青少年信息学奥林匹克系列竞赛大纲(2023 年修订版)》,对CSP-S2024四道题目展开分析,涵盖知识点、难度系数及选手能力要求,最后对…

浅层 CNN 的瓶颈:用 LeNet 实测不同数据集

本实验旨在评估 LeNet 卷积神经网络 在不同复杂度数据集上的表现,以验证其泛化能力与局限性。我们选择了三个典型数据集: • MNIST:2828 灰度手写数字,任务简单、类内差异小; • Fashion-MNIST:2828 灰度服饰图像…

文本派 - 停服公告 2025

文本派 - 极简在线文本存储 停服通知根据相关部门和监管要求,需要对存储在云端的数据进行合法性审查。由于“文本派”采用前端加密模式,我们无法解密用户数据以排查潜在滥用情况。经内部充分讨论并遵循监管要求,我们…

lCode题库

https://c.icode.org.cn/wrc_learn

Arista cEOS 4.35.0F 发布 - 针对云原生环境设计的容器化网络操作系统

Arista cEOS 4.35.0F 发布 - 针对云原生环境设计的容器化网络操作系统Arista cEOS 4.35.0F 发布 - 针对云原生环境设计的容器化网络操作系统 Containerized EOS 数据中心网络操作系统 请访问原文链接:https://sysin.o…

Arista vEOS 4.35.0F 发布 - 虚拟化的数据中心和云网络可扩展操作系统

Arista vEOS 4.35.0F 发布 - 虚拟化的数据中心和云网络可扩展操作系统Arista vEOS 4.35.0F 发布 - 虚拟化的数据中心和云网络可扩展操作系统 Virtual EOS 数据中心网络操作系统 请访问原文链接:https://sysin.org/blo…

因果机器学习的技术发展与挑战

本文深入探讨因果机器学习这一新兴领域,涵盖因果发现、可解释AI、公平性算法等关键技术议题,分析图形模型与统计方法在因果推断中的应用,并展望该领域的未来发展方向与数学工具演进。ICML:因果遇见机器学习之地 某…

深入解析:Spring依赖注入方式

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

CSP-S 考前集训

10.8-10.9: whk 10.10 专题。 CF1798E Multitest Generator:直接做就行,发现答案至多为 \(2\)。 CF2066C Bitwise Slides:我们维护那两个相同的数,再 dp。 CF431D Random Task:发现答案满足单调性,可以二分+数位…

通过rqlite sdk 快速访问sqlite-vec

通过rqlite sdk 快速访问sqlite-vecsqlite-vec 的的轻量化以及标准sqlite 扩展的模式对于需要使用向量存储的场景(比如相似比较的),但是使用上可能并不是很友好(从轻量化来说够用了,但是我们很多时候还是需要serv…