Qwen2.5-VL Technical Report

TL;DR

  • 2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力,加入了目标定位等精细化感知能力,评测结果基本上能对齐或超过当前最优的 VLM 模型。

Paper name
Qwen2.5-VL Technical Report

Paper Reading Note

Paper URL:

  • https://arxiv.org/pdf/2502.13923

Code URL:

  • https://github.com/QwenLM/Qwen2.5-VL

Introduction

背景

  • 尽管多模态大语言模型取得了显著进步,但当前模型的能力仍类似于夹心饼干的中间层——能够胜任多种任务,但在卓越性能方面仍有不足。
    • 计算复杂度高、上下文理解能力有限、精细化视觉感知不足,以及在不同序列长度上的表现不一致
    • 其中,精细化视觉任务可类比为底层基础。
  • 本次 Qwen2.5-VL 版本的重点在于探索精细化感知能力,旨在构建坚实的 LVLMs 基础,并在现实应用场景中发挥代理增强作用。

本文方案

  • 介绍了 Qwen2.5-VL,在多个基准测试中达到甚至超越了顶级闭源模型

    • 在视觉编码器中实现窗口注意力(Window Attention),优化推理效率
    • 引入动态 FPS 采样,将动态分辨率扩展至时间维度,实现对不同采样率视频的全面理解
    • 在时间域升级 MRoPE,并对齐至绝对时间,以促进更复杂的时间序列学习
    • 在数据筛选方面做出重大努力,在预训练和监督微调中使用高质量数据,并将预训练语料规模从 1.2 万亿 tokens 扩展至 4.1 万亿 tokens
      在这里插入图片描述
  • Qwen2.5-VL 的核心特性

    • 强大的文档解析能力:Qwen2.5-VL 将文本识别升级为全方位文档解析,擅长处理多场景、多语言以及各类内嵌信息(手写文本、表格、图表、化学公式、乐谱等)的文档。
    • 精准的跨格式目标定位:Qwen2.5-VL 提供更高精度的目标检测、指点与计数能力,并支持绝对坐标和 JSON 格式,增强其空间推理能力。
    • 超长视频理解与精细化视频定位:该模型将原生动态分辨率扩展至时间维度,能够理解长达数小时的视频,并以秒级精度提取事件片段。
    • 增强的计算机与移动设备代理功能:借助先进的目标定位、推理和决策能力,该模型在智能手机和计算机端展现更强的代理执行能力。

Methods

模型架构

  • 三个组件
    • 大语言模型:
      • 加载 Qwen2.5 LLM 预训练权重
      • 将一维旋转位置编码(1D RoPE, Rotary Position Embedding)修改为对齐绝对时间的多模态旋转位置编码(MRoPE)
    • 视觉编码器:
      • 重新设计的 Vision Transformer(ViT)架构,结合 2D-RoPE 和窗口注意力(window attention),以支持原生输入分辨率并提升计算效率
      • 在训练和推理过程中,输入图像的高度和宽度被调整为 28 的倍数后输入 ViT。视觉编码器通过以 14 的步幅(stride)划分图像为小块(patch),提取图像特征
    • 基于 MLP 的视觉-语言合并模块(MLP-based Vision-Language Merger)
      • 压缩图像特征序列:将空间上相邻的四个 patch 进行分组,然后将这些特征拼接后通过两层多层感知机(MLP),将其投影至与 LLM 文字嵌入对齐的维度

在这里插入图片描述

  • 模型配置
    在这里插入图片描述
视觉编码器
  • 窗口注意力(Window Attention)优化计算复杂度

    • 由于处理不同大小的图像时计算复杂度呈二次方增长(quadratic complexity),我们在大多数层中引入了窗口注意力机制,使计算开销随着 patch 数量呈线性增长,而非二次增长。
      • 仅有 4 层采用完整的自注意力(self-attention),其余层均采用窗口注意力,最大窗口尺寸为 112×112(即 8×8 patches)。
      • 小于 112×112 的区域无需填充(padding),保持原始分辨率。
  • 2D 旋转位置编码(2D-RoPE)提升空间理解能力

  • 3D Patch 处理提高视频处理能力

    • 静态图像采用 14×14 patches。
    • 视频数据将连续两帧合并为一个基本单位,减少输入 LLM 的 token 数量,提高视频处理效率
  • 对齐 LLM 架构,提高视觉-语言兼容性

    • 归一化方法采用 RMSNorm
    • 激活函数采用 SwiGLU
  • 训练过程

    • CLIP 预训练
    • 视觉-语言对齐
    • 端到端微调
  • 数据使用动态采样策略,使模型适应不同分辨率的输入

    • 基于原始的 aspect ratio 进行采样
原生动态分辨率与帧率

在以下两个维度上进行改进

  • 空间维度(Spatial Domain)
    • 传统方法通常对坐标进行归一化,而 Qwen2.5-VL 直接使用输入图像的实际尺寸表示边界框、关键点等空间特征
    • 该方法使模型能够学习尺度信息,在不同分辨率下都能保持较强的处理能力
  • 时间维度(Temporal Domain)
    • 动态帧率(Dynamic FPS)训练,适应不同帧率的视频,提高时间信息捕捉能力
    • 绝对时间编码(Absolute Time Encoding),在 MRoPE 位置编码中引入时间 ID,直接与时间戳对齐,而不需要额外的计算开销
对齐绝对时间的多模态旋转位置编码(Multimodal Rotary Position Embedding Aligned to Absolute Time)
  • Qwen2.5-VL 在前代 Qwen2-VL 的 MRoPE 旋转位置编码基础上,进一步优化以更好地处理视频中的时间信息
  • MRoPE 位置编码由三部分组成
    • 时间维度(Temporal)
    • 高度维度(Height)
    • 宽度维度(Width)
  • 不同输入的统一:
    • 文本输入:这三个维度共享相同的位置 ID,使其等效于传统 1D RoPE
    • 图像输入:时间 ID 在整个视觉 token 序列中保持一致,而高度和宽度的 ID 则依据其在图像中的空间位置分配。
    • 视频输入:视频被视为一系列帧,时间 ID 随帧数递增,而高度和宽度的 ID 仍然基于每个 token 在图像中的空间位置分配。
  • 时间对齐优化(Temporal Alignment Improvement)
    • 传统 MRoPE 的时间 ID 仅与输入帧数相关,没有考虑内容变化速度或事件的绝对时间
    • Qwen2.5-VL 关键改进:将时间 ID 对齐至绝对时间,模型通过时间维度 ID 之间的间隔学习一致的时间对齐方式,从而适应不同的 FPS 采样率,提高对视频时序信息的理解能力

预训练

数据
  • 相较于 Qwen2-VL,我们大幅扩展了预训练数据的规模,从 1.2 万亿 tokens 增加到约 4 万亿 tokens
  • 数据集涵盖了多种多模态数据类型,包括:
    • 图像字幕(image captions)
    • 交错图文数据(interleaved image-text data)
      • 支持上下文学习,提供同时包含视觉和文本信息的训练样本
      • 即使缺少图像输入,也能保持强大的文本处理能力
      • 涵盖丰富的通用知识,提升模型的知识泛化能力
    • OCR 文字识别数据
      • 合成数据(Synthetic Data)
      • 开源数据(Open-Sourced Data)
      • 内部采集数据(In-House Collected Data)
    • 视觉知识(名人、地标、动植物识别等)
    • 多模态学术问答
    • 目标定位数据
      • 使用绝对坐标表示目标
    • 文档解析数据
      • 采用统一的文档解析架构,所有文档元素均统一采用 HTML 格式表示,包含布局信息、插图描述、文本坐标等
        :
    • 视频描述与视频定位
      • 动态采样不同帧率(FPS)
      • 视频目标定位采用秒级(second-based)与 hmsf(时-分-秒-帧)格式标注时间戳
    • 智能代理交互数据
      • 收集了来自移动端、网页端、桌面端的界面截图,并通过合成数据引擎生成:
      • 界面描述(Screenshot Captions)
      • UI 元素标注(UI Element Grounding)
训练策略
  • 从零开始训练 Vision Transformer (ViT),使用 DataComp 和内部数据集对视觉编码器进行初始化

  • 第一阶段:单独训练 Vision Transformer (ViT)

    • 目标:提高 ViT 与 LLM 的对齐能力,为多模态理解奠定基础。
    • 主要数据来源:
      图像字幕(Image Captions)
      视觉知识(Visual Knowledge)
      OCR 数据
    • 该阶段训练重点在于让 ViT 具备提取高质量视觉特征的能力,以便与文本信息进行有效结合。
  • 第二阶段:解冻所有参数,训练完整多模态模型

    • 目标:增强模型处理复杂视觉信息的能力。
    • 主要数据来源:
      交错图文数据(Interleaved Image-Text Data)
      多任务学习数据(Multi-Task Learning Datasets)
      视觉问答(VQA)
      多模态数学(Multimodal Mathematics)
      智能代理任务(Agent-Based Tasks)
      视频理解(Video Understanding)
      纯文本数据(Pure-Text Datasets)
    • 该阶段引入更复杂的数据,以强化视觉与语言之间的深度关联,提高模型的推理能力。
  • 第三阶段:增强长序列推理能力

    • 目标:提升模型在长视频理解和智能代理任务中的表现,并扩大模型处理的序列长度。
    • 主要数据来源:
      视频数据(Video Data)
      智能代理数据(Agent-Based Data)
    • 训练方法:
      • 增加序列长度至 32,768 tokens,使模型能够处理更长的上下文信息。
      • 增强对长依赖任务的处理能力,例如视频分析和跨帧推理。

在这里插入图片描述

  • 动态数据打包策略(Dynamic Data Packing) 来优化计算效率,均衡不同 GPU 上的计算负载

训练后优化(Post-training)

Qwen2.5-VL 的训练后对齐框架采用 双阶段优化策略,包括:

  • 监督微调(Supervised Fine-Tuning, SFT)
  • 直接偏好优化(Direct Preference Optimization, DPO)
指令数据(Instruction Data)

构建了一个 约 200 万条指令数据集,用于提升模型在多种模态下的指令跟随能力:

  • 50% 纯文本数据
  • 50% 多模态数据(图文、视频-文本组合)
  • 多领域任务
    视觉问答(VQA)
    图像字幕生成(Image Captioning)
    数学解题(Mathematical Problem-Solving)
    编程任务(Coding Tasks)
    安全相关问题(Security-Related Queries)
    文档解析(Doc & OCR)
    目标定位(Grounding)
    视频分析(Video Analysis)
    智能代理交互(Agent Interactions)
训练策略
  • 监督微调(SFT)
    • 冻结 Vision Transformer (ViT) 参数。
    • 训练数据包括:
      图文对(Image-Text Pairs)
      视频数据
      纯文本数据
    • 目标:优化跨模态任务的执行能力。
  • 直接偏好优化(DPO)
    • 仅使用图文和纯文本数据。
    • 采用偏好数据,对齐模型输出与人类偏好。
    • 每个样本仅处理一次,以提高优化效率。

Experiments

  • 与 SOTA 模型对比,数学上很强,通用 VQA 大部分也达到最高精度
    在这里插入图片描述

  • 纯文本评测也表现出色
    在这里插入图片描述

  • OCR 效果也很好,在 CC-OCR、OmniDocBench 上刷新 SOTA 记录
    在这里插入图片描述

  • 视觉定位、计数能力也很强
    在这里插入图片描述
    在这里插入图片描述

  • 视频理解与定位

    • LVBench、MLVU(长视频理解):
      • Qwen2.5-VL-72B 显著超越 GPT-4o
    • Charades-STA(视频事件定位):
      • mIoU 50.9,超过 GPT-4o
    • 视频最大处理帧数:
      • 最高 768 帧
      • 最大视频 token 24,576
        在这里插入图片描述
  • agent 能力,包括 UI 元素定位、android 控制等任务
    在这里插入图片描述

Conclusion

  • 很扎实的开源工作报告,目前最强开源 VLM 模型,在数据处理、模型架构上都有一些创新和优化
  • 3B、7B、72B 模型适用于不同的应用场景
  • 加上推理模式后的效果值得期待
  • 精细化定位等能力确实很重要,比如对于 agent 等场景,要识别出鼠标、按钮等就是需要有精细化定位能力

7B 模型简单测试

  • 简单的图表理解效果还行
    在这里插入图片描述
    在这里插入图片描述

  • 比较难的推理题无法做对(正确答案 698)
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/70477.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Elasticsearch】多索引(数据流)搜索

在 Elasticsearch 中,搜索多个数据流(data streams)和索引(indices)是一个常见的操作,尤其是在处理大规模数据或跨多个数据源进行查询时。以下是关于如何使用查询来搜索多个数据流和索引的详细说明&#xf…

OpenCV机器学习(8)随机森林(Random Forests)算法cv::ml::RTrees类

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::ml::RTrees 是 OpenCV 机器学习模块中的一部分,用于实现随机森林(Random Forests)算法。随机森林是一种集…

使用Dify将AI机器人嵌入到你的前端页面中及chrome的扩展应用

目录 1 博主有话说2 前提环境3 Dify创建个聊天助手应用4 将AI聊天机器人嵌入到html中5 将AI聊天机器人设置为chrome的扩展应用6 博主增语 1 博主有话说 那博主话不多说,先展示一下成果! 这个界面是使用dify配置的一个“聊天助手”的应用,助…

I2C实践开发 ---【STM32-I2C-HDC1080温湿度采集系统】

I2C实践开发 — STM32-I2C-HDC1080温湿度采集系统 目录 I2C实践开发 --- STM32-I2C-HDC1080温湿度采集系统1. 引言2. 系统架构2.1 硬件架构2.2 软件架构 3. 代码分析3.1 I2C驱动文件 (i2c.h 和 i2c.c)3.2 HDC1080传感器驱动文件 (hdc1080.h 和 hdc1080.c) 4. 功能总结【HDC1080…

蓝桥杯好数

样例输入: 24 输出:7 输入:2024 输出: 150 思路:本题朴素方法的时间复杂度是O(n * log10(n)) ,不超时。主要考察能否逐位取数,注意细节pi,这样不会改变i,否则会导致循环错误。 #in…

Linux-Ansible命令

文章目录 常用命令基础命令 🏡作者主页:点击! 🤖Linux专栏:点击! ⏰️创作时间:2025年02月21日18点49分 常用命令 ansible #主命令,管理员临时命令的执行工具 ansible-doc #…

AI到底能做些什么:详细产品功能对比

1. 引言 人工智能(AI)作为当今科技领域的热门话题,已经在多个行业中展现出巨大的潜力。从自然语言处理到计算机视觉,从语音识别到自动化机器人,AI的应用范围广泛且深入。本文将详细探讨AI的核心功能、在各行业的应用、…

vue 学习-vite api.js

/** 整机管理 * */ // 整机分类 列表 export const wholeMachineServersType params > ajaxGet({url: wholeMachine/serverstype/,params}) // 整机分类 新增 export const wholeMachineServersTypeAdd params > ajaxPost({url: wholeMachine/serverstype/,params}) /…

ESP32 websocket-client

本文简介 ESP-IDF WebSocket-Client 实验平台 ①ESP-IDF 版本:release/v5.3.2 ③硬件平台:esp32-s3 版权声明 ①作者:coLin ②声明:问题总结,有误解,请联系纠正。 正文 1、基于 esp-idf 如何使用 …

【Python爬虫(12)】正则表达式:Python爬虫的进阶利刃

【Python爬虫】专栏简介:本专栏是 Python 爬虫领域的集大成之作,共 100 章节。从 Python 基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取&#xff…

网络安全设备防护原理 网络安全防护装置

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 防火墙 简介 网络层的防护设备,依照特殊的规则允许或者限制传输的数据通过 是由软件和硬件设备组合而成,在内部网和外部网之间、专用网…

小结:策略路由(Policy-based Routing,PBR)

在华为设备上,策略路由(Policy-based Routing,PBR)允许你根据流量的各种特征(如源IP、目标IP、源端口、目的端口、协议类型等)来选择流量的转发路径。华为的策略路由配置与其他厂商相似,但也有其…

蓝桥杯15 填空题

1.握手问题: 思路:首先当所有人都握过手,由于一次握手相当于两个人都握手过,所以容易发现这是一个组合问题,为(50*49)/2,而其中有7个人没有相互握过手,那么减去&#xff…

HTML项目一键打包工具:HTML2EXE 最新版

HTML2EXE 工具可以一键打包生成EXE可执行文件。可以打包任意HTML项目或者是一个网址为单个EXE文件,直接打开即可运行。支持KRPano全景VR项目、WebGL游戏项目、视频播放、,课件打包、网址打包等。 一、功能特点 类别序号功能标题1支持程序图标自定义(支持…

开启开源新时代:DeepSeek引领人工智能技术开放化

DeepSeek开源周:开启AI共享新时代 摘要 DeepSeek近日通过社交平台X宣布,将于下周启动为期五天的开源活动,每天公开一个核心代码库。这一消息迅速引发热议,被认为是人工智能迈向开放共享时代的关键一步。通过释放技术资源&#xff…

springboot多实例部署时,@Scheduled注释的方法重复执行

问题&#xff1a;springboot多实例部署时&#xff0c;Scheduled注释的方法重复执行 在 Spring Boot 中要实现 Redis 的SET NX EX命令&#xff0c;可以借助 Spring Data Redis 来完成。SET NX EX命令用于在键不存在时设置键值对&#xff0c;并同时设置过期时间。 <dependen…

DeepSeek赋能制造业:图表可视化从入门到精通

一、企业数据可视化之困 在数字化浪潮席卷全球的当下,商贸流通企业作为经济活动的关键枢纽,每天都在与海量数据打交道。从商品的采购、库存管理,到销售渠道的拓展、客户关系的维护,各个环节都源源不断地产生数据。这些数据犹如一座蕴含巨大价值的宝藏,然而,如何挖掘并利用…

紧随“可信数据空间”政策风潮,数造科技正式加入开放数据空间联盟

在全球数字化转型加速的背景下&#xff0c;数造科技凭借前瞻性战略眼光&#xff0c;正式加入开放数据空间联盟&#xff08;ODSA&#xff09;。这一决策&#xff0c;不仅是公司发展历程中的重要一步&#xff0c;更是我们积极响应行业发展趋势&#xff0c;致力于推动数据产业创新…

数学建模之数学模型-1:线性规划

文章目录 线性规划线性规划的基本概念线性规划的数学模型线性规划的标准模型对非标准形式标准化线性规划的典型建模&#xff1a;运输问题数学模型的建立 线性规划 线性规划的基本概念 线性规划问题可以分为两类问题&#xff1a; &#xff08;1&#xff09;如何合理地使用有限…

开源免费文档翻译工具 可支持pdf、word、excel、ppt

项目介绍 今天给大家推荐一个开源的、超实用的免费文档翻译工具&#xff08;DeeplxFile&#xff09;&#xff0c;相信很多人都有需要翻译文档的时刻&#xff0c;这款工具就能轻松解决你的需求。 它支持多种文档格式翻译&#xff0c;包括 Word、PDF、PPT、Excel &#xff0c;使…