深入解析:【2B篇】阿里通义 Qwen3-VL 新增 2B、32B 两个模型尺寸,手机也能轻松运行

news/2025/11/20 12:15:50/文章来源:https://www.cnblogs.com/ljbguanli/p/19246610

深入解析:【2B篇】阿里通义 Qwen3-VL 新增 2B、32B 两个模型尺寸,手机也能轻松运行

认识Qwen3-VL——通义千问系列迄今为止最强大的视觉语言模型。

这一代实现了全方位升级:更卓越的文本理解与生成、更深度的视觉感知与推理、更长的上下文处理能力、增强的空间与视频动态理解,以及更强大的智能体交互功能。

提供从边缘设备到云端均可扩展的Dense和MoE架构,并配备指令微调版与推理增强的Thinking版本,支持灵活按需部署。

核心升级:
  • 视觉智能体:可操作PC/移动端图形界面——识别元素、理解功能、调用工具、完成任务。

  • 视觉编程增强:根据图像/视频生成Draw.io图表/HTML/CSS/JS代码。

  • 高级空间感知:判断物体位置、视角与遮挡关系,提供更强的2D空间定位能力,并支持3D空间推理与具身智能。

  • 长上下文与视频理解:原生支持256K上下文窗口,可扩展至1M;完整记忆并二级索引处理书籍和数小时长视频内容。

  • 增强多模态推理:擅长STEM/数学领域——因果分析与基于证据的逻辑应答。

  • 升级版视觉识别:经过更广域、更高质量的预训练,实现"万物识别"——名人、动漫、商品、地标、动植物等。

  • 扩展OCR能力:支持32种语言(原19种);在弱光、模糊、倾斜场景下表现稳健;对生僻字/古籍术语识别更优;提升长文档结构解析能力。

  • 媲美纯文本大模型的理解力:文本-视觉无缝融合,实现无损统一理解。

模型架构更新:

在这里插入图片描述

  1. 交错式多维鲁棒位置嵌入(Interleaved-MRoPE):通过鲁棒的位置编码在时间、宽度和高度维度实现全频段分配,从而增强长时视频推理能力。

  2. 深度堆叠(DeepStack):融合多层级视觉Transformer特征,捕捉细粒度细节并锐化图像-文本对齐。

  3. 文本-时间戳对齐:突破T-RoPE限制,实现基于精确时间戳的事件定位,强化视频时序建模能力。

模型性能

Qwen3-VL-2B-Instruct

多模态性能

纯文本表现

Qwen3-VL-2B-Thinking

多模态性能


纯文本性能

快速入门

以下提供简单示例,展示如何使用Qwen3-VL模型配合魔搭社区和Transformers库。

Qwen3-VL的代码已集成至最新版Hugging Face transformers库,建议您通过以下命令从源码安装:

pip install git+https://github.com/huggingface/transformers
# pip install transformers==4.57.0 # currently, V4.57.0 is not released

使用 Transformers 进行聊天

以下代码片段展示了如何使用 transformers 与聊天模型交互:

Qwen3-VL-2B-Instruct

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
# default: Load the model on the available device(s)
model = Qwen3VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen3-VL-2B-Instruct", dtype="auto", device_map="auto"
)
# We recommend enabling flash_attention_2 for better acceleration and memory saving, especially in multi-image and video scenarios.
# model = Qwen3VLForConditionalGeneration.from_pretrained(
#     "Qwen/Qwen3-VL-2B-Instruct",
#     dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )
processor = AutoProcessor.from_pretrained("Qwen/Qwen3-VL-2B-Instruct")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": "Describe this image."},
],
}
]
# Preparation for inference
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
)
inputs = inputs.to(model.device)
# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

Qwen3-VL-2B-Thinking

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
# default: Load the model on the available device(s)
model = Qwen3VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen3-VL-2B-Thinking", dtype="auto", device_map="auto"
)
# We recommend enabling flash_attention_2 for better acceleration and memory saving, especially in multi-image and video scenarios.
# model = Qwen3VLForConditionalGeneration.from_pretrained(
#     "Qwen/Qwen3-VL-2B-Thinking",
#     dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )
processor = AutoProcessor.from_pretrained("Qwen/Qwen3-VL-2B-Thinking")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": "Describe this image."},
],
}
]
# Preparation for inference
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
)
inputs = inputs.to(model.device)
# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

生成超参数

VL
export greedy='false'
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=16384
Text
export greedy='false'
export top_p=1.0
export top_k=40
export repetition_penalty=1.0
export presence_penalty=2.0
export temperature=1.0
export out_seq_length=32768

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/970932.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025北京托福机构TOP5榜单!无老师/新通领衔,提分率90%+机构全解析

2025北京托福机构TOP5榜单!无老师/新通领衔,提分率90%+机构全解析随着留学申请竞争的加剧,托福成绩作为海外院校录取的核心指标之一,其备考效率与提分质量备受关注。北京作为留学教育资源聚集地,托福培训机构数量…

Why did Sanminism fail?

maybe the traditional Chinese should be Extincted. Jack London thinks Hieroglyphs should all die. So it was simplified. then it should be Chinese. it should be Asian, it should be European, it should o…

网络安全产品深度对比:Detectify与Halo Security的技术架构剖析

本文深入对比Detectify和Halo Security两款外部安全平台的技术架构,涵盖资产发现与分类、漏洞评估方法和用户体验三大核心领域,分析各自的自动化扫描引擎、API测试能力和工作流程设计差异。产品对比:Detectify vs. …

pyppeteer: 连接到已打开的chrome

一,chrome启动调试端口 $ google-chrome --remote-debugging-port=9222 --user-data-dir=/data/python/xianyu/userdataDevTools listening on ws://127.0.0.1:9222/devtools/browser/faddaa6e-98ec-444e-9710-9b7198…

深入解析:【开题答辩过程】以《重庆市社区养老服务小程序设计与实现》为例,不会开题答辩的可以进来看看

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年玻璃棉夹芯板直销厂家权威推荐榜单:聚氨酯夹芯板/两面企口夹芯板/金属幕墙夹芯板系统源头厂家精选

在工业建筑与绿色节能领域,一批掌握核心技术、具备全球视野的企业正推动着中国建筑围护系统向高端化、智能化方向革新。 玻璃棉夹芯板作为一种高性能的建筑材料,以其优异的保温隔热、防火隔音性能,在工业厂房、数据…

使用信号量实现父子父子进程交替运行的学习笔记

使用信号量实现父子父子进程交替运行的学习笔记 在学习进程同步机制时,信号量是一个非常重要的概念。相比于之前使用信号和全局变量实现进程同步的方式,信号量提供了更可靠、更灵活的同步机制。本文记录我使用 Syste…

基于MATLAB实现图像缺陷检测、清晰度评估及自动对焦功能

一、系统架构设计二、核心算法 1. 图像预处理 function preprocessed = preprocess(img)% 灰度化(心理学灰度公式)grayImg = rgb2gray(img);% 自适应去噪(非局部均值滤波)denoised = nlfilter(grayImg, [5 5], @(x…

托福提分认准这些!2025五大靠谱机构推荐,从基础到冲刺全覆盖

托福提分认准这些!2025五大靠谱机构推荐,从基础到冲刺全覆盖随着留学热潮的持续升温,托福成绩作为海外院校申请的核心指标,其重要性愈发凸显。优质的托福培训不仅能帮助学员高效掌握考试技巧,更能系统性提升语言能…

海南州一对一辅导机构靠谱推荐:2026最新教育机构榜! 持证师资精准发力

孩子成绩卡在中游难突破,报大班补习像“陪读”没效果,找一对一又怕遇到师资参差不齐、退费难的糟心事?在海南州,不管是共和县、贵德县、贵南县、同德县、兴海县,还是玛沁县、班玛县、甘德县、达日县、久治县、玛多…

2025 最新切割工程队推荐!混凝土 / 桥梁 / 支撑梁 / 无损切割等全场景工程队口碑排行榜,专业服务权威推荐

引言 在建筑改造与拆除领域,切割施工的安全性、精准度与环保性直接决定工程品质。当前行业存在技术水平不均、设备迭代滞后、安全管理缺失等痛点,导致需求方难以精准筛选靠谱服务团队。本次榜单由国际建筑切割技术协…

2025年淮南一对一家教机构推荐:五大辅导机构测评排行榜,综合实力全解析!

淮南不少家长为孩子课外补习犯愁:小学想打牢基础、初中要应对衔接、高中需重点培优,都希望找到靠谱的一对一辅导或家教,可挑选教育机构、筛选培训服务方的过程满是困扰。部分教育机构的师资信息遮遮掩掩,号称“资深…

2025 最新基质生产线厂家权威推荐榜:泥炭育苗栽培专用设备,全球测评优质厂家全解析花卉/营养土/椰糠/白泥炭/黑泥炭/齿轮筛基质生产线公司推荐

引言 在全球绿色农业革命浪潮下,基质生产线作为现代农业规模化种植的核心装备,其技术先进性、环保合规性与产能适配性直接决定种植效益与生态可持续性。当前行业存在自动化水平不均、配料精度差异大、环保标准执行不…

2025 最新解压机厂家权威推荐榜:椰糠 / 泥炭 / 基质解压机源头厂家测评优选,聚焦专业服务与市场口碑

引言 在全球绿色农业可持续发展浪潮下,基质原料处理设备的技术升级成为行业核心诉求,解压机作为关键生产装备,其性能直接决定产能效率、产品合格率与环保合规水平。据国际农业装备技术协会最新测评数据显示,当前全…

从源码编译安装gdal3.6.2库

安装GDAL (Geospatial Data Abstraction Library) 是处理地理空间数据的重要步骤,其功能强大,广泛应用于GIS软件开发和地理数据处理领域。以下是编译安装GDAL 3.6.2版本的详细指南,步骤简明扼要,为了保证安装过程的…

2025 最新包装盒厂家推荐排行榜:一站式定制解决方案权威测评,涵盖食品、美妆、礼品等多领域优质品牌彩盒印刷/茶叶礼盒/烘焙包装盒订制公司推荐

引言 在消费升级与环保理念深化的双重驱动下,包装盒已成为品牌价值传递与产品竞争力提升的核心载体。然而,行业普遍存在的工艺精度不足、定制响应滞后、环保标准不达标等问题,给采购决策带来诸多挑战。本次排行榜基…

朝阳市一对一辅导机构推荐,2026年课外家教补习机构权威排行榜

“朝阳各区县一对一辅导机构哪家好?小学语数英、初中理化、高中全科补习该选谁?课时费多少钱才划算?有没有靠谱的机构推荐?”这些问题,是双塔区、龙城区、朝阳县、建平县、凌源市、北票市、喀左县7区县家长的共同…

完整教程:ctf.show--web入门--爆破

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025 最新工程造价公司咨询推荐榜:国际权威测评认证的全行业靠谱服务商优选指南上海/工程造价审核/工程造价全过程跟踪审计/工程预算造价/厂房工程造价审核/工程结算造价审核公司推荐

引言 在工程建设行业迈向精细化发展的进程中,工程造价咨询的专业度直接决定项目投资回报率与建设合规性,成为行业核心竞争力之一。然而当前市场服务水平参差不齐,部分机构存在专业覆盖不全、核算精准度不足、服务链…

element-plus表格相同行合并工具

用例 <el-table :span-method="objectSpanMethod"/>const objectSpanMethod = initobjectSpanMethod([0,1,5,6]) getList(){ // ...加载数据 initSpanArr(dataList.value,serialNumber);//基准行 }代码…