【大模型】视觉语言模型:Qwen2.5-VL的使用

官方github地址:https://github.com/QwenLM/Qwen2.5-VL

目录

Qwen家族的最新成员:Qwen2.5-VL

主要增强功能

模型架构更新

快速开始

使用Transformers聊天

Docker



Qwen家族的最新成员:Qwen2.5-VL

主要增强功能

强大的文档解析功能:将文本识别升级为全文档解析,擅长处理多场景、多语言和各种内置(手写、表格、图表、化学式和乐谱)文档。

跨格式精确的对象基础:解锁在检测,指向和计数对象方面的提高准确性,为高级空间推理提供绝对坐标和JSON格式。

超长视频理解和细粒度视频基础:将原生动态分辨率扩展到时间维度,增强对持续数小时的视频的理解能力,同时在数秒内提取事件片段。

增强的计算机和移动设备代理功能:利用先进的推理和决策能力,通过智能手机和计算机上的高级代理功能来增强模型。

模型架构更新

视频理解的动态分辨率和帧率训练

通过采用动态FPS采样将动态分辨率扩展到时间维度,使模型能够在不同采样率下理解视频。因此,在时间维度上使用id和绝对时间对齐来更新mRoPE,使模型能够学习时间序列和速度,最终获得精确定位特定时刻的能力。

流线型和高效的视觉编码器

通过在ViT中战略性地实施窗口注意力来提高训练和推理速度。利用SwiGLU和RMSNorm对ViT架构进行进一步优化,使其与Qwen2.5 LLM的结构保持一致。

快速开始

下面,将提供简单的示例来展示如何将Qwen2.5-VL与ModelScope和Transformers一起使用。

Qwen2.5-VL的代码已经在最新的 Hugging face transformers中,建议使用命令从源代码构建:

pip install git+https://github.com/huggingface/transformers accelerate

安装依赖

pip install qwen-vl-util

使用Transformers聊天

这里展示了一个代码片段,展示如何使用聊天模型与transformers和qwen_vl_utils:

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info# default: Load the model on the available device(s)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
)# We recommend enabling flash_attention_2 for better acceleration and memory saving, especially in multi-image and video scenarios.
# model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
#     "Qwen/Qwen2.5-VL-7B-Instruct",
#     torch_dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )# default processor
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")# The default range for the number of visual tokens per image in the model is 4-16384.
# You can set min_pixels and max_pixels according to your needs, such as a token range of 256-1280, to balance performance and cost.
# min_pixels = 256*28*28
# max_pixels = 1280*28*28
# processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", min_pixels=min_pixels, max_pixels=max_pixels)messages = [{"role": "user","content": [{"type": "image","image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",},{"type": "text", "text": "Describe this image."},],}
]# Preparation for inference
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text],images=image_inputs,videos=video_inputs,padding=True,return_tensors="pt",
)
inputs = inputs.to(model.device)# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

多图片推理

# Messages containing multiple images and a text query
messages = [{"role": "user","content": [{"type": "image", "image": "file:///path/to/image1.jpg"},{"type": "image", "image": "file:///path/to/image2.jpg"},{"type": "text", "text": "Identify the similarities between these images."},],}
]# Preparation for inference
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text],images=image_inputs,videos=video_inputs,padding=True,return_tensors="pt",
)
inputs = inputs.to("cuda")# Inference
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

更多使用提示

对于输入图像,支持本地文件、base64和url。对于视频,目前只支持本地文件。

# You can directly insert a local file path, a URL, or a base64-encoded image into the position where you want in the text.
## Local file path
messages = [{"role": "user","content": [{"type": "image", "image": "file:///path/to/your/image.jpg"},{"type": "text", "text": "Describe this image."},],}
]
## Image URL
messages = [{"role": "user","content": [{"type": "image", "image": "http://path/to/your/image.jpg"},{"type": "text", "text": "Describe this image."},],}
]
## Base64 encoded image
messages = [{"role": "user","content": [{"type": "image", "image": "data:image;base64,/9j/..."},{"type": "text", "text": "Describe this image."},],}
]

提高性能的图像解决方法

该模型支持广泛的分辨率输入。默认情况下,它使用本机分辨率作为输入,但是更高的分辨率可以以更多的计算为代价来提高性能。用户可以设置最小和最大像素数,以实现满足其需求的最佳配置,例如token计数范围为256-1280,以平衡速度和内存使用。

min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", min_pixels=min_pixels, max_pixels=max_pixels
)

此外,提供了两种方法对输入到模型的图像大小进行细粒度控制:

1.指定确切的尺寸:直接设置resized_height和resized_width。这些值将四舍五入到最接近28的倍数。

2.定义min_pixels和max_pixels:图像将被调整大小,以保持其宽高比在min_pixels和max_pixels的范围内。

# resized_height and resized_width
messages = [{"role": "user","content": [{"type": "image","image": "file:///path/to/your/image.jpg","resized_height": 280,"resized_width": 420,},{"type": "text", "text": "Describe this image."},],}
]
# min_pixels and max_pixels
messages = [{"role": "user","content": [{"type": "image","image": "file:///path/to/your/image.jpg","min_pixels": 50176,"max_pixels": 50176,},{"type": "text", "text": "Describe this image."},],}
]

为多个图像输入添加id

默认情况下,对话中直接包含图像和视频内容。在处理多个图像时,为图像和视频添加标签有助于更好地参考。用户可以通过以下设置控制此行为:

1.添加视觉id

Flash-Attention 2加速生成

首先,确保安装最新版本的Flash Attention 2

pip install -U flash-attn --no-build-isolation

此外,应该有一个与Flash-Attention 2兼容的硬件。在flash attention repository的官方文档中信息。FlashAttention-2只能在模型加载到torch.float16 或者 torch.bfloat16

要使用Flash Attention-2加载和运行模型,只需在加载模型时添加attn_implementation="flash_attention_2",如下所示:

from transformers import Qwen2_5_VLForConditionalGenerationmodel = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype=torch.bfloat16, attn_implementation="flash_attention_2",
)

处理长文本

当前配置config.json设置的上下文长度最多为32,768个token。为了处理超过32,768个token的大量输入,使用 YaRN,这是一种增强模型长度外推的技术,确保在长文本上的最佳性能。

对于支持的框架,可以在config.json中添加以下内容来启用YaRN:

{...,"type": "yarn","mrope_section": [16,24,24],"factor": 4,"original_max_position_embeddings": 32768
}

然而,需要注意的是,这种方法对时间和空间定位任务的性能有很大的影响,因此不建议使用。

同时,对于长视频输入,由于MRoPE本身使用id更经济,因此可以直接将max_position_embeddings修改为更大的值,例如64k。

Docker

为了简化部署过程,提供了带有预构建环境的docker:qwenllm/qwenvl。只需要安装驱动程序并下载模型文件来启动演示。

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5 -it qwenllm/qwenvl:2.5-cu121 bash

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/899779.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HDMI接口设计

1. HDMI简介 HDMI(High Definition Multimedia Interface)高清多媒体接口,是首个支持在单线缆上传输,不经过压缩的全数字高清晰度、多声道音频和智能格式与控制命令数据的数字接口。这个接口可以同时传输视频信号、音频信号和控制信号。 从上图里面可以看到HDMI有3组数据信号…

C/C++ JSON 库综合对比及应用案例(六)

第六部分:C/C JSON 库综合对比及应用案例 📢 快速掌握 JSON!文章 视频双管齐下 🚀 如果你觉得阅读文章太慢,或者更喜欢 边看边学 的方式,不妨直接观看我录制的 JSON 课程视频!🎬 …

LXC 导入(Rockylinux,almalinux,oraclelunx,debian,ubuntu,openEuler,kail,opensuse)

前提要求 ubuntu下安装lxd 参考Rockylinux下安装lxd 参考LXC 源替换参考LXC 容器端口发布参考LXC webui 管理<

Spring MVC 页面跳转方案与区别

SpringMVC 的页面跳转方案主要分为 ‌转发&#xff08;Forward&#xff09;‌ 和 ‌重定向&#xff08;Redirect&#xff09;‌ 两类&#xff0c;具体实现方式和区别如下&#xff1a; 一、页面跳转方案 1. ‌转发&#xff08;Forward&#xff09;‌ 默认方式‌&#xff1a;直…

基于Spring Boot的轻型卡车零部件销售平台的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

高性能计算面经

高性能计算面经 C八股文真景一面凉经自我介绍&#xff0c;介绍一下你做过的加速的模块(叠噪&#xff0c;噪声跟原图有什么关系&#xff1f;)OpenGL和OpenCL有什么区别&#xff1f;**1. 核心用途****2. 编程模型****3. 硬件抽象****4. API设计****5. 典型应用场景****6. 互操作性…

青少年编程与数学 02-014 高中数学知识点 07课题、专业相关性分析

青少年编程与数学 02-014 高中数学知识点 07课题、专业相关性分析 一、函数与微积分1. 函数与初等函数2. 导数与优化 二、概率与统计1. 概率基础2. 统计推断3. 随机变量与分布 三、几何与代数1. 向量与矩阵运算2. 复数与坐标变换 四、数学建模与算法思维1. 数学建模2. 算法逻辑…

11乱码问题的解释(2)

这个字符串使用哪种方式编码的?---看包含在哪个文件中 和当前 mylabel.cpp 文件的编码方式是一致的~~ 如果这里显示的是 UTF-8&#xff0c;说明这个文件就是UTF-8 编码 如果显示的是 ANSI,说明这个文件就是 GBK 编码~ Qt Creator 内置的终端是 utf8 的方式来显示字符串吗?? …

我的机器学习学习之路

学习python的初衷 • hi&#xff0c;今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。 • 我是2023年9月开始下定决心要学python的&#xff0c;目的有两个&#xff0c;一是为了提升自己的技能和价值&#xff0c;二是将所学的知识应用到工作中去&#xff0c;提升工作…

27--当路由器学会“防狼术“:华为设备管理面安全深度解剖(完整战备版)

当路由器学会"防狼术"&#xff1a;华为设备管理面安全深度解剖&#xff08;完整战备版&#xff09; 引言&#xff1a;网络世界的"门神"进化论 “从前有个路由器&#xff0c;它把所有数据包都当好人&#xff0c;直到有一天…” ——《悲惨世界网络版》 如果…

Docker容器网络相关设置

确认容器是否正确启动 首先&#xff0c;确保 MySQL 容器正在运行。可以使用 docker ps 查看当前正在运行的容器。如果 MySQL 容器没有启动&#xff0c;可以尝试以下命令启动它&#xff1a; docker run -d --name mysql-container -e MYSQL_ROOT_PASSWORDrootpassword mysql:8 这…

hive相关面试题以及答案

什么是Hive&#xff1f;它的作用是什么&#xff1f; 答&#xff1a;Hive是一个建立在Hadoop之上的数据仓库工具&#xff0c;它提供了类似于SQL的查询语言HiveQL来操作存储在Hadoop中的数据。Hive的主要作用是让用户能够使用SQL语法来查询和分析大规模数据集。 Hive的架构是什么…

前端学习记录之HTML

1. 网页 1.1 什么是网页 网站是指在因特网上根据一定的规则&#xff0c;使用HTML等制作的用于展示特定内容相关的网页集合。 网页是网站中的一“页”&#xff0c;通常是HTML格式的文件&#xff0c;它要通过浏览器来阅读 网页是构成网站的基本元素。它通常由图片&#xff0c;…

【1-1】ICT=IT+CT

前言 从这篇文章开始&#xff0c;我将总结软考网工相关的笔记和自己的所思所想。我所总结内容均来自互联网&#xff0c;欢迎大家交流、学习、讨论。 1. ICT ICT IT CT 这里&#xff0c;这三个缩写的对应英文如下&#xff1a; 缩写英文含义ICTInformation and Communicat…

多账号安全登录与浏览器指纹管理的实现方案

随着跨境电商、社交媒体运营等场景的普及&#xff0c;用户对多账号管理与反检测技术的需求日益增长。指纹浏览器作为一款专注于多账号安全登录与浏览器指纹管理的工具&#xff0c;通过虚拟浏览器环境隔离、动态指纹模拟等技术&#xff0c;解决了账号关联封禁的痛点。本文将从技…

CMake Presets教程

在使用 CMake 作为构建工具的时候, 对于一个稍微大一点的项目, 存在有很多的选项. 比如 Debug 版本还是 Release 版本, 是否开启特定选项, 是否开启测试等等. 这些通常是作为命令行参数传递进去的. 但是很多程序员并不在命令行中作开发, 更多的是使用 IDE 来进行开发. 不同的 I…

vue搭建一个树形菜单项目

首先搭建项目需要先通过步骤搭建一个vue的项目&#xff0c;然后创建一个component文件&#xff0c;里面新建一个index.vue页面来。 这是引入的element-ui组件库里的组件&#xff0c;来实现我的路由&#xff0c;渲染的是我存储的动态路由&#xff0c;所以需要先安装并且引用。 …

【Python 算法】动态规划

本博客笔记内容来源于灵神&#xff0c;视频链接如下&#xff1a;https://www.bilibili.com/video/BV16Y411v7Y6?vd_source7414087e971fef9431117e44d8ba61a7&spm_id_from333.788.player.switch 01背包 计算了f[i1]&#xff0c;f[i]就没用了&#xff0c;相当于每时每刻只有…

c#的反射和特性

在 C# 中&#xff0c;反射&#xff08;Reflection&#xff09;和特性&#xff08;Attributes&#xff09;是两个强大的功能&#xff0c;它们在运行时提供元编程能力&#xff0c;广泛用于框架开发、对象映射和动态行为扩展。以下是对它们的详细介绍&#xff0c;包括定义、用法、…

云终端的作用,此刻在校园和医院里具象化

数字化转型已经成为各行各业交流的热点话题&#xff0c;校园和医院这两个重要领域正经历着深刻变革。云终端&#xff0c;正以实际应用成果展现其独特作用&#xff0c;让人们切实感受到它带来的高效与便利。 传统的教学中&#xff0c;学校机房的电脑设备更新换代成本高&#xf…