昇腾服务器大模型量化方法

昇腾服务器大模型量化方法

本文介绍如何使用量化工具在昇腾服务器上做量化,量化工具使用msModelSlim,推理框架使用MindIE,昇腾卡为Atlas300I Duo卡,以量化多模型模型Qwen2.5-VL-7B-Instruct为例。

准备mindie镜像

镜像版本:2.2.RC1-300I-Duo-py311-openeuler24.03-lts

创建容器

dockerrun -it -u root --ipc=host --net=host\--name mindie22\--privileged\--device=/dev/davinci_manager\--device=/dev/devmm_svm\--device=/dev/hisi_hdc\-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi\-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common\-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver\-v /etc/ascend_install.info:/etc/ascend_install.info\-v /etc/vnpu.cfg:/etc/vnpu.cfg\-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info\-v /data:/data\ca41f88c275c /bin/bash

在容器内安装量化工具

gitclone https://gitcode.com/Ascend/msit.gitcdmsmodelslimbashinstall.sh


模型量化

#还需要执行以下命令安装qwen_vl_utils依赖pipinstallqwen_vl_utilscdmsit/msmodelslim/example/multimodal_vlm/ Qwen2.5-VL python quant_qwen2_5vl.py --model_path /data/models/Qwen/Qwen2.5-VL-7B-Instruct --calib_images../calibImages --save_directory /data/models/Qwen/Qwen2.5-VL-7B-Instruct-w8a8 --w_bit8--a_bit8--device_type npu --trust_remote_code True --anti_method m2 --mindie_format

在Duo卡上量化会遇到“System Direct Memory Access (DMA) hardware execution error”报错
使用NPU多卡量化(特别是Qwen2.5-VL-72B这种大模型),先配置多卡环境变量(Atlas 300I Duo 系列产品不支持多卡量化):

exportASCEND_RT_VISIBLE_DEVICES=0,1exportPYTORCH_NPU_ALLOC_CONF=expandable_segments:False

设置完上述环境变量后可正常量化


MindIE 推理验证

curl-X POST"http://127.0.0.1:1025/v1/chat/completions"\-H"Content-Type: application/json"\-d'{ "model": "qwen2.5-vl", "messages": [ { "role": "user", "content": [ {"type": "text", "text": "描述这张图"}, { "type": "image_url", "image_url": {"url": "/data/VL/bus.jpg"} } ] } ], "max_tokens": 1024 }'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1170347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机毕业设计案例】基于SpringBoot+vue的山区特色农产品供销服务系统的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

时序数据库选型指南:Apache IoTDB为何成大数据场景优选

前言 在万物互联与数字化转型的浪潮下,工业传感器、车联网终端、智慧能源设备等每秒产生海量时序数据,其“写多读少、只增不删、规模庞大、查询复杂”的特性,对数据存储与管理系统提出了极致要求。传统关系型数据库早已难以承载,而…

搭建 FreeIPA 服务器

FreeIPA(Free Identity Policy and Audit)是 Linux/Unix 世界的 "Active Directory",一个开源的、一体化的身份管理与集中式策略控制解决方案。它旨在简化并统一在混合环境中管理 Linux 系统和用户的复杂…

后悔!孩子近视后,大部分家长都犯了这样的错

当孩子视力检查单上的度数不断攀升,许多家长陷入焦虑与慌乱,却在应对近视的过程中,不知不觉踏入误区,等到孩子近视度数快速加深时,才追悔莫及。误区一:配镜后便放松警惕,忽视近视进展的防控在发…

Java——异常

Error和Exception 什么是异常实际工作中遇到的情况不可能是非常完美的。比如:你写的某个模块,用户输入不一定符合你的要求、你的程序要求打开某个文件,这个文件可能不存在或者文件格式不对,你要读取数据库的数据,…

【计算机毕业设计案例】基于Java濒危物种公益网站的设计与实现基于SpringBoot濒危物种公益救助交流平台(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

学习笔笔记——ARM 嵌入式系统与内核架构

ARM 嵌入式系统与内核架构详解一、计算机系统基本组成1.1 计算机硬件系统基本组成CPU(中央处理器):控制单元 运算单元 寄存器存储器系统:内存(主存):RAM、ROM外存:硬盘、闪存等输入…

Java计算机毕设之基于SpringBoot+vue的山区农户农产品供销服务系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

通信原理篇---AM/DSB/SSB/VSB解调

我们用“拆快递包裹”的比喻,来彻底讲清楚这四大经典模拟调制方式的解调方法。解调就是接收端如何从“卡车”(已调信号)里,完好地取出“礼物”(原始信号)的过程。核心思想:解调的两大门派所有解…

深入研究 Golang 下 Kafka 的集群搭建与配置

深入研究 Golang 下 Kafka 的集群搭建与配置 关键词:Kafka集群、Golang、Sarama、消息队列、分布式系统 摘要:本文从“如何用Golang玩转Kafka集群”的视角出发,结合生活场景类比与实战代码,详细讲解Kafka集群的核心概念、搭建步骤…

【数学趣题】二次方程的有理数根和共轭二次根式的处理

今天在上课时见识到了北京的神秘升学考试题,出得相当美丽,因此来记述一下。 \(\large\mathbf{P}\)\(\small\mathbf{ROBLEM\ 1}\) 计算:\(\displaystyle \dfrac{\displaystyle\sum^{99}_{i=1}\sqrt{10+\sqrt n}}{\di…

Java毕设项目:基于SpringBoot+vue的山区农产品供销服务系统的设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【课程设计/毕业设计】基于SpringBoot + Vue的影院线上购票管理平台基于SpringBoot+Vue的影视购票平台的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【课程设计/毕业设计】基于SpringBoot + Vue的影院线上购票管理平台基于SpringBoot+Vue的影视购票平台的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

把祝福写成一首歌:10 个「Song」主题网站,送给生命里最重要的人

有些话,写在卡片里太短;当面说出口又容易哽咽。 更好的方式,可能是——把它写成一首歌:让爱有旋律,让回忆有声音,让祝福有回响。 这篇文章整理了 10 个「Song」主题网站,你可以按对象与场景快速选择入口:想要一…

【课程设计/毕业设计】基于SpringBoot+vue的山区农产品产销山区农产品供销服务系统的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【课程设计/毕业设计】基于SpringBoot+vue的山区农产品产销山区农产品供销服务系统的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

AI长期记忆存储方案对比:哪种最适合你的应用

AI长期记忆存储方案对比:哪种最适合你的应用关键词:AI长期记忆、存储方案、向量数据库、知识图谱、关系型数据库、NoSQL、混合存储摘要:AI系统要像人类一样"记住"历史信息,长期记忆存储是关键。本文将带你像挑水果一样对…

【多线程编程】CompletableFuture 使用指南(基础篇):从原理到 API

文章目录一、为什么需要 CompletableFuture(Why CompletableFuture):解决异步编程的核心痛点1.1 传统 Future 的困境:串行慢、并行复杂1.2 CompletableFuture 的解决方案:简单、高效、可靠二、CompletableFuture 的实现…

【Java多并发编程】CompletableFuture 使用指南(实战篇):从场景到优化

文章目录一、实战场景(Practical Scenarios):从简单到复杂1.1 多数据源并行查询:总耗时约等于最慢的那个(性能提升可达数倍)1.2 异步任务链式处理:前一个任务的输出作为后一个任务的输入&#x…