Qwen3VL开源图文多模态大模型

原文出处: https://zhuanlan.zhihu.com/p/1978593520458696605

Qwen3-VL 系列包含以下变体:

Dense 模型: Qwen3-VL-2B, 4B, 8B, 32B。
MoE 模型: Qwen3-VL-30B-A3B (Active 3B), Qwen3-VL-235B-A22B (Total 235B, Active 22B)。
所有模型均支持 256K 的上下文窗口。训练过程分为预训练(Pre-training)和后训练(Post-training)两个阶段,并在后训练阶段区分了非思考(Non-thinking)和思考(Thinking)两种变体。

视觉编码器采用:

default to the SigLIP2-SO-400M variant and use SigLIP2-Large (300M) for small-scale LLMs (2B and 4B).

支持256K超长上下文。

主要采用的新技术:

Interleaved-MRoPE
DeepStack
Video Timestamp

模型架构

Qwen3-VL 沿用了 Qwen2.5-VL 的三组件架构:视觉编码器(Vision Encoder)、MLP 视觉-语言适配器(Merger)以及大型语言模型(LLM)。

DeepStack 跨层融合机制


为了加强视觉与语言模态的对齐,Qwen3-VL 引入了 DeepStack 机制。

交错式多维旋转位置编码 (Interleaved MRoPE)

Qwen2.5-VL 引入了 MRoPE 来处理多模态位置信息,将嵌入维度划分为时间(t)、水平(h)和垂直(w)三个子空间。

问题分析: 原有设计将 embedding 维度分块(Chunking),分别分配给 t, h, w。研究观察到,这种分块策略会导致频率谱(Frequency Spectrum)不平衡。具体而言,某些维度可能只包含低频信息,而其他维度包含高频信息,这会损害长视频理解能力。

改进方案: Qwen3-VL 采用了交错式(Interleaved)设计。通过在嵌入维度上交错分配 t, h, w 的分量,确保每个时空轴在低频和高频波段上都有均匀的表示。 假设嵌入维度为 ,对于每个位置索引 ,其编码方式通过交错频率确保了频谱偏差的缓解,从而提升了模型对长距离时空依赖的建模能力。

基于文本的视频时间戳 (Explicit Video Timestamps)

在视频理解任务中,Qwen2.5-VL 使用绝对时间位置编码。

原有局限:

对于长视频,绝对时间位置 ID 会变得非常大且稀疏,影响长上下文外推。
需要对不同帧率(FPS)进行广泛采样以学习时间对应关系,增加了数据构建成本。
新方案: Qwen3-VL 移除了基于位置编码的绝对时间对齐,转而采用显式文本时间戳 token。

每个视频时间片段前会插入格式化的文本字符串,例如 <3.0 seconds>。
训练过程中,同时使用秒(Seconds)和时分秒(HMS)格式,以增强模型对不同时间表示的鲁棒性。
虽然这略微增加了上下文长度(Text tokens),但它提供了更直接的时间语义,有助于视频定位(Grounding)和密集描述(Dense Captioning)任务。

支持混合图文输入。

超长上下文,通过残差注入,而不是直接输进去。

直接输入文本时间戳。

预训练策略 (Pre-Training)

预训练阶段旨在赋予模型广泛的视觉理解能力和长上下文处理能力。训练过程分为四个阶段(S0 - S3),逐步解锁能力。

3.1 训练阶段详解

  • S0: 视觉-语言对齐 (Vision-Language Alignment)
    • 目标:弥合视觉与语言模态的差距。
    • 参数更新:仅训练 MLP 适配器(Merger),冻结视觉编码器和 LLM。
    • 数据:约 67B token,包含高质量图文对、视觉知识和 OCR 数据。
    • 序列长度:8,192。

  • S1: 多模态预训练 (Multimodal Pre-Training)
    • 目标:全参数端到端训练。
    • 参数更新:解冻视觉编码器、Merger 和 LLM。
    • 数据:约 1T token。混合了纯文本数据和多模态数据(图文交错文档、视觉定位、VQA、STEM 数据)。
    • 序列长度:8,192。

  • S2: 长上下文预训练 (Long-Context Pre-Training)
    • 目标:扩展上下文窗口,增强长文档和视频理解。
    • 序列长度:提升至 32,768。
    • 数据:约 1T token。增加了纯文本长文档的比例,多模态数据中引入更多视频和 Agent 指令跟随数据。

  • S3: 超长上下文适应 (Ultra-Long-Context Adaptation)
    • 目标:极限扩展上下文能力。
    • 序列长度:提升至 262,144 (256K)。
    • 数据:约 100B token。专注于长视频和长文档分析任务。
    • 优化:使用平方根重加权(Square-root reweighting)策略来平衡文本和多模态数据的损失,避免某一模态主导梯度。

3.2 数据工程

Qwen3-VL 的核心竞争力很大程度上源于其精细的数据工程。

3.2.1 图像描述与交错图文

  • 图像描述:构建了大规模中英文图文对。使用微调后的 Qwen2.5-VL-32B 模型对原始 Web 文本进行重新描述(Recaptioning),生成包含对象属性、空间布局和上下文语义的详尽描述。通过语义去重和基于聚类的采样策略,确保数据的多样性和长尾概念的覆盖。
  • 交错图文:收集自中英文网站。引入了基于 Qwen 的轻量级评分器过滤低价值内容(广告、点击诱饵)。针对书籍类数据,使用 Qwen2.5-VL-7B 进行高精度解析,将文本与插图精确对齐。为了支持长上下文,将连续页面合并为长达 256K 的序列。

3.2.2 OCR 与文档解析

  • OCR:收集了 3000 万内部数据。采用“粗糙到精细”的管道,结合 OCR 专用模型伪标签和 Qwen2.5-VL 的修正,无需人工标注。语言覆盖从 Qwen2.5-VL 的 10 种扩展到 39 种。
  • 文档解析:收集了 300 万 Common Crawl PDF 和 400 万内部文档。设计了统一的标注框架,支持QwenVL-HTML(元素级边界框)和QwenVL-Markdown(仅定位图片表格,表格转 LaTeX)两种格式。
  • 长文档理解:通过拼接单页文档合成长文档解析序列,并构建长文档 VQA 数据,要求模型跨页推理。

3.2.3 视觉定位与计数

  • Box-based Grounding:整合 COCO, Objects365 等开源数据集,并开发自动化合成管道:使用 Qwen2.5-VL 提取候选对象 -> Grounding DINO 定位 -> 质量过滤。
  • Point-based Grounding:整合 PixMo 及合成数据,专注于细粒度细节。
  • 计数:包含直接计数、基于框的计数和基于点的计数任务。坐标系统归一化到 [0,1000]。

3.2.4 空间理解与 3D 识别

  • 空间理解:构建包含关系标注(如“杯子在笔记本左边”)、功能性标签(Affordance,如“可抓取”)和动作条件查询(Action Planning)的数据集。所有空间参考均相对于其他物体,而非绝对坐标。
  • 3D Grounding:收集室内外场景数据,转化为 VQA 格式。输出 9-DoF 3D 边界框。利用 Omni3D 统一相机坐标系,并合成描述性文本查询。

3.2.5 视频 (Video)

  • 密集描述合成:针对长视频,采用“短到长”策略生成时间连贯的故事级描述。
  • 时空定位:在对象、动作和人物层级进行标注。
  • 数据平衡:动态调整采样参数(FPS、最大帧数)以适应不同长度的视频,避免信息丢失。

3.2.6 STEM 与代码

  • STEM:开发基于代码的渲染管道生成几何图表。生成了 100 万点定位样本和 200 万感知导向 VQA 对。
  • 代码:包含 UI 到 HTML/CSS 转换、SVG 生成、可视化编程挑战等任务。

4. 后训练

后训练阶段包括监督微调(SFT)和强化学习(RL),并将模型分为非思考(Standard)和思考(Thinking/CoT)两种模式。

4.1 监督微调

数据构成:SFT 数据集约 120 万样本,文本与多模态数据比例约为 1:2。涵盖 8 个核心领域和 30 个细分领域。

策略:

  • 分阶段训练:先在 32K 长度下训练一轮,随后在 256K 长度下训练第二轮。长上下文数据包括数百页的技术文档和长达两小时的视频。
  • 数据过滤:
    • 查询过滤(Query Filtering):使用 Qwen2.5-VL 识别模糊指令。
    • 响应过滤(Response Filtering):结合规则过滤(去除重复、格式错误)和基于奖励模型的过滤(评估正确性、有用性和视觉相关性)。

4.2 思考模式冷启动

为了训练具有长思维链(Long Chain-of-Thought)能力的模型,团队构建了专门的冷启动数据集。

  • 数据来源:视觉-语言数学题、复杂 STEM 问题、Agent 工作流。多模态与纯文本比例约为 1:1。
  • 多模态必要性过滤:对于视觉数学题,剔除那些不看图仅凭文本就能被 Qwen3-30B-nothink 解出的题目,确保样本确实需要多模态推理。
  • 难度筛选:保留基线模型通过率低或生成回复较长的问题。

4.3 强弱蒸馏 (Strong-to-Weak Distillation)

采用两阶段蒸馏策略,利用强模型(Teacher)提升弱模型(Student)能力:

  1. Off-policy Distillation:学生模型学习教师模型的输出,建立基础推理能力。
  2. On-policy Distillation:学生模型根据提示生成响应,通过最小化与教师模型 logits 的 KL 散度进行微调。注:蒸馏主要在纯文本数据上微调 LLM 骨干,这被证明能有效迁移推理能力到多模态任务。

4.4 强化学习

强化学习分为推理 RL 和通用 RL 两个阶段。算法采用 SAPO (Soft adaptive policy optimization,Qwen 团队推出 SAPO,相较于 GRPO、GSPO 稳定且更优)。

4.4.1 推理 RL

  • 任务:数学、代码、逻辑推理、视觉定位等具有确定性验证方法的任务。
  • 奖励:基于规则或代码执行器的二值奖励。

4.4.2 通用 RL

  • 目标:指令跟随(格式、长度约束)和偏好对齐(有用性、安全性)。
  • 去学习(Unlearning):引入特定任务纠正 SFT 阶段引入的错误先验(如反直觉的物体计数)。
  • 混合奖励系统:
    • 基于规则的奖励:用于可验证任务(如格式检查)。
    • 基于模型的奖励:使用 Qwen2.5-VL-72B-Instruct 或 Qwen3 作为裁判模型,对开放性问题进行评分。

4.5 Agent 能力:Thinking with Images

受 "Thinking with Images" 启发,Qwen3-VL 通过两阶段训练赋予模型 Agent 能力:

  1. 冷启动 SFT:使用约 10k 简单的 Grounding 数据微调 Qwen2.5-VL-32B,模拟思考 -> 行动 -> 观察 -> 回答的过程。
  2. 多轮 RL:蒸馏第一阶段的模型生成 120k 多轮交互数据,并在 Qwen3-VL 上应用工具集成的 RL。
  • 奖励信号:答案正确性、多轮推理逻辑连贯性、工具调用准确性。

5. 实验评估

实验在多个维度上对比了 Qwen3-VL 与 GPT-5 (OpenAI), Gemini 2.5 Pro (Google), Claude Opus 4.1 (Anthropic) 等模型。

5.1 通用视觉问答 (General VQA)

在 MMBench, RealWorldQA, MMStar 等基准上,Qwen3-VL 系列表现强劲。

  • 旗舰模型:Qwen3-VL-235B-A22B-Instruct 在 MMBench-EN 上达到 89.3,超过了 GPT-5 (High budget) 的 83.8。
  • 中等模型:Qwen3-VL-32B 在多个榜单上优于 Gemini 2.5 Flash 和 GPT-5 mini。

Qwen3-VL-235B-A22B 与顶尖模型在视觉基准上的性能对比

5.2 多模态推理

重点评估了 STEM 相关任务(MMMU, MathVista, DynaMath)。

  • 思考模式优势:Qwen3-VL-235B-A22B-Thinking 在 MathVista_mini 上达到 82.7,在 MathVerse_mini 上达到 82.9,均优于 Instruct 版本,且在多数任务上超越了 Gemini 2.5 Pro (Thinking)。
  • 小模型性能:即便 Qwen3-VL-8B 也在 DynaMath 上取得了 78.0 的分数,显示出良好的扩展性。

5.3 文档理解与 OCR

评估数据集包括 DocVQA, ChartQA, OCRBench 等。

  • DocVQA:Qwen3-VL-235B-A22B 取得了 97.1 (Instruct) 的高分。
  • 多语言 OCR:在自建的 39 种语言测试集中,模型在 32 种语言上准确率超过 70%。
  • 长文档:在 MMLongBench-Doc 上,Instruct 版本准确率为 57.0%,展示了长上下文训练的有效性。

5.4 视频理解

评估涵盖 VideoMME, MVBench, LVBench (长视频) 等。

  • 长视频优势:得益于 256K 上下文和文本时间戳,Qwen3-VL 在 MLVU (长视频理解) 上表现优异。
  • 大海捞针 (Needle-in-a-Haystack):在视频“大海捞针”测试中,模型在 30 分钟视频(256K token)内达到了 100% 的准确率。通过 YaRN 外推至 1M token(约 2 小时视频)时,准确率仍保持在 99.5%。

5.5 Agent 与工具使用

  • GUI Grounding:在 AndroidWorld 和 OSWorld 上,Qwen3-VL 展现了 SOTA 性能。Qwen3-VL-32B 在 AndroidWorld 上得分 63.7。
  • Fine-grained Perception with Tools:在 V* 和 HRBench 等需要极高精度的任务上,结合工具使用(Pixel-level grounding tools)后,模型性能有显著提升(例如 V* 上提升约 5 个点)。

6. 消融研究

报告对关键架构选择进行了消融分析:

6.1 视觉编码器选择

对比了 Qwen3-ViT(在 CLIP 阶段使用 1.5T token 训练)和 SigLIP-2。

  • 结果:尽管 Qwen3-ViT 在 ImageNet 等标准分类任务上表现稍好,但在结合 LLM 进行 VLM 训练后,SigLIP-2 在 OmniBench(内部综合评估套件)上的表现更具优势,且训练效率更高。

6.2 DeepStack 的有效性

  • 对比:基线模型(无 DeepStack)vs 集成 DeepStack 的模型。
  • 结果:DeepStack 在 InfoVQA, DocVQA, ChartQA 等需要细粒度视觉信息的任务上带来了显著提升(例如 DocVQA 从 89.5 提升至 91.1)。这证明了注入中间层视觉特征能有效补充高层语义特征的不足。

7. 结论与展望

Qwen3-VL 技术报告展示了当前视觉-语言模型的前沿水平。通过架构上的微创新(Interleaved-MRoPE, DeepStack)、激进的数据工程(特别是合成数据和长上下文数据)以及引入 System 2 风格的思考模式,Qwen3-VL 在保持文本能力的同时,大幅提升了多模态推理和长窗口理解能力。

未来的工作方向包括:

  1. 交互式感知:增强模型在动态环境中主动感知和调整的能力。
  2. 实时多模态控制:迈向实时机器人控制和操作。
  3. 理解与生成的统一:探索利用视觉生成能力来反哺视觉理解,构建统一架构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1120070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026大模型高薪攻略:小白到年薪百万的黄金入行指南_2026年AI大模型领域薪资爆发,抓住五大热门岗位

文章解析2025年AI大模型高薪机遇&#xff0c;指出算法工程师月薪7万、科学家11万。详细介绍五大岗位技能要求、涨薪策略及避坑指南&#xff0c;强调现在是入行黄金期&#xff0c;错过将错失百万年薪机遇。2025年AI大模型领域迎来爆发期&#xff0c;算法工程师月薪7万&#xff0…

Python实现功能完整的扫雷小游戏

一、游戏功能亮点本次实现的扫雷游戏在基础玩法之上&#xff0c;新增了三大核心功能&#xff0c;提升游戏体验与挑战性&#xff1a;计时器功能&#xff1a;游戏启动后自动计时&#xff0c;结束时显示通关或失败用时&#xff0c;增强竞技感&#xff1b;难度选择功能&#xff1a;…

langchain的中文文档地址

中文文档地址&#xff1a;https://www.langchain.com.cn/docs/introduction/

一分钟读懂代付业务

代付业务主要分为个人代付与企业代付两大类型。对于企业而言&#xff0c;开通代付功能堪称降本增效的利器&#xff0c;核心优势有四&#xff1a;1. 724小时全天候服务&#xff1a;支持自动抵扣转账&#xff0c;不受节假日、上下班时间限制&#xff0c;资金流转更灵活。2. 解放财…

飞越中国沉浸式体验馆:7D互动影院引领全新娱乐风潮

飞越中国沉浸式体验馆的创新娱乐体验 在飞越中国沉浸式体验馆中&#xff0c;7D互动影院成为众多观众探寻新娱乐体验的首选。该影院利用先进技术&#xff0c;为观众提供超高清画质并结合动感座椅&#xff0c;创造出独特的沉浸感。在这里&#xff0c;观众不仅仅是被动观看&#x…

高考学校和专业的选择

高考学校和专业的选择是&#xff1a;专业占比&#xff1a;40%学校占比&#xff1a;30%地域占比&#xff1a;30%学校占比&#xff0c;国内就是按这个顺序&#xff0c;清北、C9、985、211、其它有一定名气的一二本、普通二本、末流二本原三本、大专。这儿值得一提的是&#xff0c…

CSS3 伸缩盒模型

一、伸缩容器、伸缩项目二、主轴与侧轴三、主轴方向四、主轴换行方式五、flex-flow六、主轴对齐方式七、侧轴对齐方式1、只有一行的情况2、多行的情况八、水平垂直居中九、基准长度十、flex复合属性十一、项目排序

Expected type ‘SecretStr | None‘, got ‘str‘ instead

错误原因 代码中有一个类型不匹配的问题&#xff1a;函数或方法期望接收的类型是 SecretStr | None&#xff08;即 SecretStr 类型或 None&#xff09;&#xff0c;但实际传入了一个普通的 str 字符串。 原因分析 使用了类型检查工具&#xff1a;你可能在使用像 mypy、pydantic…

从实验室到生产:模型量化的完整流程

从实验室到生产&#xff1a;模型量化的完整流程——让AI模型“瘦身”后跑起来 关键词 模型量化、INT8推理、动态量化、静态量化、量化感知训练、部署优化、边缘计算 摘要 当你在实验室训练出一个准确率95%的图像分类模型时&#xff0c;是否遇到过“部署瓶颈”&#xff1f;200MB…

CSS3 响应式布局

一、媒体类型二、媒体特性三、运算符

木材缺陷检测数据集-2394张图片 木材加工质检 家具制造质控 建筑材料检验 木材贸易分级 林业资源评估 智能仓储管理

&#x1f4e6;点击查看-已发布目标检测数据集合集&#xff08;持续更新&#xff09; 数据集名称图像数量应用方向博客链接&#x1f50c; 电网巡检检测数据集1600 张电力设备目标检测点击查看&#x1f525; 火焰 / 烟雾 / 人检测数据集10000张安防监控&#xff0c;多目标检测点…

AI安全与伦理:深度学习的“双刃剑”

深度学习的安全挑战深度学习模型容易受到对抗性攻击&#xff0c;攻击者通过微小的输入扰动误导模型产生错误输出。例如在图像识别中&#xff0c;加入人眼难以察觉的噪声可能导致模型将“熊猫”误判为“长臂猿”。这类攻击在自动驾驶、医疗诊断等高风险领域可能引发严重后果。数…

时间序列异常检测框架概述

时间序列异常检测&#xff08;Time Series Anomaly Detection, TSAD&#xff09;是识别时间序列数据中偏离正常模式的数据点或模式的技术。 一、异常类型分类 点异常&#xff08;Point Anomalies&#xff09;&#xff1a;单个异常数据点上下文异常&#xff08;Contextual Anoma…

从“平台”到“插件”:一个IT老兵眼中的宽基指数与“核心-卫星”投资架构

财富大厦的“操作系统” 作为一名在ICT行业摸爬滚打了三十多年的老兵 。职业习惯让我总想把复杂的事情模块化。投资不是赌博,而是一场关于“系统稳定性”与“功能扩展性”的长久运维。 [场景切入] 你的投资系统“宕机”了吗? 深夜,刚结束一个紧急的系统上线,拖着疲惫的身…

学霸同款10个AI论文网站,专科生轻松搞定毕业论文!

学霸同款10个AI论文网站&#xff0c;专科生轻松搞定毕业论文&#xff01; AI工具让论文写作不再难 在当今这个信息爆炸的时代&#xff0c;论文写作已经成为许多专科生必须面对的挑战。无论是选题、写大纲&#xff0c;还是撰写初稿和降重&#xff0c;每一个环节都可能让人感到压…

python基于django的公司财务预算管理系统_uggpfoob

目录项目概述核心功能技术实现优势与价值关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;项目概述 Python基于Django的公司财务预算管理系统是一个高效、模块化的企业级应用&#x…

强烈安利9个AI论文平台,MBA毕业论文轻松搞定!

强烈安利9个AI论文平台&#xff0c;MBA毕业论文轻松搞定&#xff01; AI 工具如何让论文写作更高效 在当前的学术环境中&#xff0c;越来越多的 MBA 学生开始借助 AI 工具来提升论文写作的效率。尤其是在面对大量文献阅读、数据分析和逻辑构建时&#xff0c;传统的方法往往显得…

系统监控异常告警

背景&#xff1a;多个系统部署在多个ECS(Linux)服务器上&#xff0c;每次巡检或者日常管理都是大问题。而且还比较滞后&#xff0c;都是问题出现了&#xff0c;才去排查。所以&#xff0c;高级的管理应主动发现异常&#xff0c;提早介入&#xff0c;将风险扼杀在摇篮中。思路&a…

【Rokid AR录屏功能逆向分析:通过蓝牙HCI抓包实现CXR SDK未提供的AR录屏功能】

背景介绍 作为一名Rokid Glasses开发者&#xff0c;我最近在开发一个需要AR录屏功能的应用。然而&#xff0c;Rokid官方提供的CXR SDK中并没有直接封装AR录屏的功能。在查阅官方文档和API后&#xff0c;我意识到需要自己探索实现方案。 经过深入研究&#xff0c;我发现了通过蓝…