一文读懂Qwen3-VL-EmbeddingReranker:多模态检索新标杆,收藏学习!


Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 是基于 Qwen3-VL 基础模型构建的统一多模态检索框架,采用 “三阶段训练→Matryoshka 嵌入→知识蒸馏” 技术路线,解决了传统多模态检索模型在存储效率和跨模态对齐方面的痛点。该模型在 MMEB-V2 基准测试中以77.8 分的成绩排名第一,较此前最佳开源模型提升6.7%,同时支持 32K 长文本处理和 30 + 语言,成为多模态检索领域的新标杆。

文章解读

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 是 Qwen 家族基于 Qwen3-VL 基础模型的最新扩展,提供了一个端到端的高精度多模态搜索管道,将文本、图像、文档图像和视频等多种模态映射到统一的表示空间。论文采用双轨并行架构:Qwen3-VL-Embedding采用双塔编码器架构生成密集向量表示,使用余弦相似度作为相关性度量;Qwen3-VL-Reranker采用单塔交叉编码器架构,通过交叉注意力机制对查询 - 文档对进行细粒度相关性估计。两种模型均继承了 Qwen3-VL 的多语言能力,支持 30 多种语言,并提供 2B 和 8B 两种参数规模以适应不同部署需求。

模型架构

流程细节拆解

数据准备:种子池→合成→难负挖掘

种子池:先用 Qwen3-VL-32B 给 2 亿图文/视频打高质量标签,再按 GME 相似度过滤,保证图文一致。

合成:对每份种子资产,用 32B 模型按固定 Prompt 生成“分类-QA-检索”三类标签,覆盖图像+视频共 7 种任务范式

难负挖掘:两阶段“召回→相关性过滤”,用中间模型算 cos,保留分数∈[s̄⁺, s̄⁺+δ⁻] 的硬负例,同时剔除低置信正例。

三阶段训练流水线

模型首先在海量的弱监督、噪声数据上进行预训练, 以建立相关性理解的基准,并提升模型的泛化能力。随后,在高质量、任务特定的数据集上进行微调,引导模型实现更精确的相关性评分和细粒度交互。除了上述原因外,多阶段训练策略的另一个目标是 同时提升数据质量与模型性能。随着训练在各个阶段的推进,模型能力持续增强。这种提升反过来促进了 更有效的数据挖掘,从而进一步优化了训练数据的质量。这一迭代循环最终显著提升了模型的整体性能。

Stage-0 对比预训练:在 300 M 合成数据上用 InfoNCE(带 5 类负样本掩码)训练 Embedding-2B/8B,得到 s0。

Stage-1 多任务精调:用 40 M 人工+合成数据继续对比学习,产出 s1;同时用检索子集训练 Reranker,交叉熵优化 yes/no 概率。

Stage-2 蒸馏&模型合并:Reranker 给 4 M 高质量样本打 0-1 分布,Embedding 用 KL 对齐该分布得 s2;最后把 s2 与 s1 模型合并-加权平均,得到最终 s3,兼顾检索与分类 QA。

相关模板

Embedding 输入模板

取 PAD 位置最后一层隐状态做 2048/4096-d 向量。

Reranker 输入模板:

效率优化

Matryoshka:不仅在全维嵌入上计算损失,还在相同表示的截断低维前缀上计算,在足够密集的 MRL 维度集上训练产生强泛化能力,使模型在未明确包含的中间维度上也能获得有竞争力的性能,具体来说,在 {32,64,…,1024} 维前缀同时计算 InfoNCE,推理时可截断至任意 512/256 维,MRR 降 ≤1.4%,存储减半。

量化感知:训练时把 LSQ 量化到 INT8/Binary 一起前向,梯度用 STE 回传,部署时直接存 8 bit,几乎无损。

输入处理机制

图像模态:保持原始宽高比,最大 token 消耗限制为 1,280(约 130 万像素)

视频模态:首先以 1 FPS 采样,最多 64 帧,每帧保持宽高比,所有帧的总 token 预算限制为 4,500(约 920 万像素)

总结

Qwen3-VL-Embedding&Reranker 用“三阶段蒸馏+Matryoshka+量化感知”组合拳,首次在 2B/8B 级别把图文文档视频统一嵌入推到 MMEB-V2 新 SOTA,同时保留多语言文本竞争力;Reranker 以 yes/no 概率提供轻量级但高精度的二次排序。局限在于超长视频>64 帧或>15 k token 时性能回落,且二进制量化仍显著掉点;未来工作将探索音频模态、更高效训练与组合推理评测。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1196568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型项目实战宝典:从6B到65B模型训练,含LoRA/QLoRA/RLHF等热门技术,建议收藏

本文汇总了大模型实战项目,涵盖模型训练、微调(LoRA、P-Tuning等)及分布式训练等核心环节。提供从6B到65B模型的全量微调到高效微调再到RLHF的完整教程,包含命令行调用、Demo部署、LangChain集成等工程化实战指南。项目通过模块化代码和清晰文档&#xf…

强联通分量及缩点

一、\(dfs\)森林和强联通分量 二、强联通分量的\(Tarjan\)和\(Kosaraju\)算法 三、缩点和DP

Java毕设选题推荐:基于spring boot的开放实验室设备租赁报修预约管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

whk 趣事一则

家里请啥都没用了省流:导多了. 问题:求 \(29+16\cos x+12\sin x\) 的最大值. 设 \(f(x)=29+16\cos x+12\sin x\),求导可得 \(f(x)=-16\sin x+12\cos x\),整理可得 \(\tan x=\dfrac{3}{4}\) 时 \(f(x)=0\),容易发…

etcd集群备份与恢复

etcd集群备份与恢复 etcd V3 API版本数据备份 root@k8s-etcd1:~# mkdir /data root@k8s-etcd1:~# cd /data/ root@k8s-etcd1:/data# etcdctl snapshot save snapshot.dbetcd集群恢复 root@k8s-etcd1:/data# etcdut…

Java毕设项目:基于springboot的实验设备借用平台的设计与实现 实验室设备租赁系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

第 476 场周赛Q1——3745. 三元素表达式的最大值

题目链接:3745. 三元素表达式的最大值(简单) 算法原理: 解法:贪心 8ms击败10.92% 时间复杂度O(Nlogn) 思路很简单,通过排序找到ab最大,c最小,然后返回ab-c即可 Java代码:…

hhwdd:这些不都是基础练习吗?

记录一些 hhwdd 讲过的知识点。听不懂就会口胡 😃 记录的可能会很简单 莫队 考虑对原序列分块。设块长为 \(B\)。按照左端点递增为第一关键字,右端点所在块编号递增为第二关键字对询问排序。左端点递增,左指针总共…

构建企业级AI会议助手:会议记录与行动项跟踪

构建企业级AI会议助手:会议记录与行动项跟踪 关键词:AI会议助手、语音识别、自然语言处理、行动项跟踪、会议记录自动化、企业级应用、智能会议管理 摘要:本文深入探讨如何构建一个企业级的AI会议助手系统,该系统能够自动记录会议内容、识别关键决策点并跟踪行动项。我们将…

Kubernetes 部署、维护nginx服务

Kubernetes 部署、维护nginx服务 1.1 配置nginx服务并通过nodeport类型的svc实现访问 首先准备好放置yaml文件的目录 mkdir -pv /opt/k8s-data/yaml/myserver/nginx进入上一步准备好的目录,编写yaml文件 root@deploy0…

第75天(中等题 数据结构)

打卡第七十五天 2道中等题并查集模板题目:思路:并查集+哈希代码: class UnionFind {vector<int> fa;vector<int> sz; public:int cc;UnionFind(int n) : fa(n), sz(n, 0), cc(n) {iota(fa.begin(), fa.…

救命!AIGC太高怎么办?手把手教你降AI率:10款神器大盘点(内含白嫖攻略)

说真的&#xff0c;第一次被AI率搞心态是在毕业那会儿。临门一脚了&#xff0c;一测AI率直接爆炸到68%&#xff0c;导师电话里那句“你这论文是机器生成的吧”搞得我老脸通红。被怼之后&#xff0c;我跟疯了一样研究各种降AI的方法&#xff0c;折腾了快俩月&#xff0c;把市面上…

计算机Java毕设实战-基于springboot的在线云平台的房屋租赁管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

【大数据毕设源码分享】基于Python大数据技术的广东旅游数据可视化分析的设计与实现(程序+文档+代码讲解+一条龙定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

Linux 查找 /sys/bus/usb/devices 对应串口文件

简短不看版本: 本篇文章在于如何通过 lsusb -t 查找到 /sys/bus/usb/devices 目录下对应的usb串口目录 /sys/bus/usb/devices 下目录命名规则为:Bus-Port:Config.Interface。 因此,得到 Bus、Port 编号即可知道差不…

YOLOv8改进 - 注意力机制 | CoTAttention (Contextual Transformer Attention) 上下文转换器注意力通过静态与动态上下文协同建模增强视觉表征

前言 本文介绍了上下文Transformer&#xff08;CoT&#xff09;块及其在YOLOv8中的结合应用。大多数现有设计未充分利用邻近键的上下文信息&#xff0c;为此提出CoT块。它先通过33卷积对输入键进行上下文编码得到静态表示&#xff0c;再与输入查询连接&#xff0c;经两个11卷积…

【大数据毕设源码分享】基于python+Hadoop+数据可视化的租房数据分析系统的设计与实现(程序+文档+代码讲解+一条龙定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

C#/.NET/.NET Core技术前沿周刊 | 第 66 期(2026年1.12-1.18)

前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与…

实用指南:清楚易懂的红黑树讲解

实用指南:清楚易懂的红黑树讲解2026-01-21 22:48 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !import…

Java计算机毕设之基于springboot的元宇宙平台的房屋租赁管理系统基于springboot + vue房屋租赁管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…