书生·浦语大模型（学习笔记-7）LMDeploy 量化部署 LLM-VLM 实践

书生·浦语大模型（学习笔记-7）LMDeploy 量化部署 LLM-VLM 实践

pingmian/2025/10/29 18:03:18/文章来源:https://blog.csdn.net/m0_63181360/article/details/138188287

目录

一、模型的部署

二、模型部署面临的问题

三、如何解决（两种方法）

四、LMDeploy相关知识

创建conda环境(漫长的等待)

五、使用LMDeploy与模型对话

六、设置最大KV Cache缓存大小

七、W4A16量化

八、客户端连接API服务器

一、模型的部署

二、模型部署面临的问题

显存受限

访问密集型

三、如何解决（两种方法）

最开始应用在CV领域

多了量化和非量化工作，可能降低性能

四、LMDeploy相关知识

优化KV缓存管理与存储

性能表现

还支持视觉推理

五、部署实践（安装、部署、量化）

创建conda环境(漫长的等待)

studio-conda -t lmdeploy -o pytorch-2.1.2

激活刚刚创建的虚拟环境:

conda activate lmdeploy

安装0.3.0版本的lmdeploy:

pip install lmdeploy[all]==0.3.0

查看本地的预训练模型

使用 Transformer库运行模型，先创建指令

运行效果

五、使用LMDeploy与模型对话

连接到模型

lmdeploy chat /root/internlm2-chat-1_8b

结果输出：（提问 -> 请你给我讲一个小故事）

六、设置最大KV Cache缓存大小

资源监视器中的显存占用情况（未改变参数）

改变--cache-max-entry-count参数，设为0.5

改变--cache-max-entry-count参数设置为0.01

七、W4A16量化

LMDeploy使用AWQ算法，实现模型4bit权重量化

八、客户端连接API服务器

启动API服务器后进行连接：

web页面连接

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/3396.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2024 泛娱乐企业出海音视频选型攻略

2024 泛娱乐企业出海音视频选型攻略

前言在全球化扩张的大潮中，精准选择音视频技术平台对出海企业至关重要。本文将聚焦于评估即构音视频解决方案在关键的五大出海区域的性能表现，并深度解析各地区的市场特征及对应战略。旨在为志在全球市场扩张的企业提供详细的分析和策略指导&#xff0…

阅读更多...

NLP step by step -- 了解Transformer

NLP step by step -- 了解Transformer

Transformer模型 Transformer相关历史首先我们先看一下有关Transformer模型的发展历史，下面的图是基于Transformer架构的一些关键模型节点： 图片来源于Hugging Face 图片来源于Hugging Face Transformer 架构于 2017 年 6 月推出。原本研究的重点是…

阅读更多...

Java面试八股之Java中为什么没有全局变量

Java面试八股之Java中为什么没有全局变量

Java中为什么没有全局变量 Java中没有传统意义上的全局变量，这是因为Java语言设计遵循面向对象的原则，强调封装性和模块化，以及避免全局状态带来的副作用。封装性： 全局变量违反了面向对象编程中的封装原则，即隐藏对…

阅读更多...

Spring Boot集成RabbitMQ快速入门Demo

Spring Boot集成RabbitMQ快速入门Demo

1.什么是RabbitMQ？ RabbitMQ是一款使用Erlang语言开发的，基于AMQP协议的消息中间件，作为一款优秀的消息系统，RabbitMQ有高并发、可扩展等优势，并适用于大型系统中各个模块之间的通信。 RabbitMQ的特点为： 持…

阅读更多...

【白盒测试】单元测试的理论基础及用例设计技术（6种）详解

【白盒测试】单元测试的理论基础及用例设计技术（6种）详解

目录 🌞前言 🏞️1. 单元测试的理论基础 🌊1.1 单元测试是什么 🌊1.2 单元测试的好处 🌊1.3 单元测试的要求 🌊1.4 测试框架-Junit4的介绍 🌊1.5 单元测试为什么要mock 🏞️…

阅读更多...

《前端面试题》- React - 如何区分函数组件和类组件

《前端面试题》- React - 如何区分函数组件和类组件

问题如何区分函数组件和类组件？ 答案可以使用instanceof 或者Component.prototype.isReactComponent。示例函数组件 export default function FunctionComonent() {if(FunctionComonent.prototype.isReactComponent){console.log(FunctionComonent是类组件…

阅读更多...

prompt提示词：AI英语词典优化版Pro，让AI教你学英语，通过AI实现一个网易有道英语词典

prompt提示词：AI英语词典优化版Pro，让AI教你学英语，通过AI实现一个网易有道英语词典

目录一、前言二、效果对比三、优化《AI英语词典》提示词四、其他获奖作品链接一、前言不可思议！我的AI有道英语字典助手竟然与百度千帆AI应用创意挑战赛K12教育主题赛榜首作品差之毫厘 ，真的是高手都是惺惺相惜的，哈哈，自恋一…

阅读更多...

docker 集群管理实战mesos+zookeeper+marathon（一）

docker 集群管理实战mesos+zookeeper+marathon（一）

一实验环境 1.1 系统版本，本实验使用cnetos7.9版本镜像 1.2 准备5台虚拟机，其中3台master，两台slave，使用克隆的方式 1.3 使用远程连接工具登录 1.4 修改主机名 1.5 设置域名映射每个虚拟机都配置一下，这里就演示一…

阅读更多...

SN74LV1T125DBVR SN74LV1T125单电源单缓冲门，带三态输出CMOS逻辑电平转换器

SN74LV1T125DBVR SN74LV1T125单电源单缓冲门，带三态输出CMOS逻辑电平转换器

SN74LV1T125DBVR 规格信息： 制造商:Texas Instruments 产品品种:转换 - 电压电平 RoHS:是电源电压-最大:5.5 V 电源电压-最小:1.6 V 最小作业温度:- 40 C 最大作业温度: 125 C 安装风格:SMD/SMT 封装 / 箱体:SOT-23-5 封装:Cut Tape 封装:MouseReel 封装…

阅读更多...

Day24-4_26 为什使用docker,什么是docker?

Day24-4_26 为什使用docker,什么是docker?

一丶受大型项目部署的问题？ 解析： 1、依赖关系复杂，容易出现兼容性问题 2、开发、测试、生产环境有差异二丶Docker如何解决依赖的兼容问题？ 解析： 1、将应用的Libs(函数库)、Deps(依赖)、配置与应用一起打包 2、将每个…

阅读更多...

AI电销机器人系统源码部署之：freeswitch安装Linux

AI电销机器人系统源码部署之：freeswitch安装Linux

安装 FreeSWITCH（一个开源的电话交换系统）通常需要一些步骤，以下是在 Linux 系统上安装 FreeSWITCH 的基本指南： 准备工作： 确保你有一个运行 Linux 的服务器，并且有 root 或者具有 sudo 权限的用户。确保服…

阅读更多...

ios CI/CD 持续集成组件化专题三 IOS打包Bundle与加载Bundle中的图片

ios CI/CD 持续集成组件化专题三 IOS打包Bundle与加载Bundle中的图片

一、读取 BundlePath (NSString *)sdkPodsBundlePath { NSBundle *bundle [NSBundle bundleForClass:[self class]]; NSString *bundlePath [bundle pathForResource:kSDKName ofType:"bundle"]; return bundlePath; } 二、读取bundle (NSBundle *)sdkBundle {…

阅读更多...

分类算法——ROC曲线与AUC指标（九）

分类算法——ROC曲线与AUC指标（九）

知道TPR与FPR TPRTP/(TP FN) 所有真实类别为1的样本中，预测类别为1的比例 FPR FP/(FP TN) 所有真实类别为0的样本中，预测类别为1的比例 ROC曲线 ROC曲线的横轴就是FPRate，纵轴就是TPRate，当二者相等时，表示的意义…

阅读更多...

使用API有效率地管理Dynadot域名，查询账户余额

使用API有效率地管理Dynadot域名，查询账户余额

关于Dynadot Dynadot是通过ICANN认证的域名注册商，自2002年成立以来，服务于全球108个国家和地区的客户，为数以万计的客户提供简洁，优惠，安全的域名注册以及管理服务。 Dynadot平台操作教程索引（包括域名邮…

阅读更多...

Android --- RecycleView

Android --- RecycleView

RecyclerView是官方在5.0之后新添加的控件，推出用来替代传统的ListView和GridView列表控件。使用 RecyclerView 步骤在布局文件中定义的一个 RecyclerView 实例，用作视图的容器。 <?xml version"1.0" encoding"utf-8"?>…

阅读更多...

【MHA】MySQL高可用MHA介绍4-故障监控与切换具体流程

【MHA】MySQL高可用MHA介绍4-故障监控与切换具体流程

目录一故障监控与切换 1 验证复制设置并识别当前主服务器 2 监控主服务器 3 检测主服务器故障 4 再次验证从服务器配置 5 关闭故障的主服务器（可选） 6 恢复新主服务器 6.1 保存来自已崩溃主服务器的二进制日志事件（如果可能&#…

阅读更多...

无人机+遥控器：遥控数传链路二合一远距离传输遥控器技术详解

无人机+遥控器：遥控数传链路二合一远距离传输遥控器技术详解

无人机遥控器是无人机飞行控制的重要组成部分，用于向无人机发送控制指令和接收无人机的状态信息。无人机遥控器通常具备多种功能，如开关机、起飞降落、飞行方向控制、摄像头控制等。无人机遥控器大多数都具备以下基本特点： 无线传输&#x…

阅读更多...

Qt | 窗口的显示及可见性|标题、透明度、启用/禁用|窗口标志、设置其他属性|获取窗口部件、设置父部件|鼠标光标

Qt | 窗口的显示及可见性|标题、透明度、启用/禁用|窗口标志、设置其他属性|获取窗口部件、设置父部件|鼠标光标

显示事件：QEvent::show，处理函数为 showEvent(QShowEvent*) 隐藏事件：QEvent::hide，处理函数为 hideEvent(QHideEvent* ) 01 QWidget 类中与可见性有关的属性 visible：bool 访问函数： bool isVisible() const; virtual void setVisible(bool visible); 02 QWid…

阅读更多...

3.搭建增长模型-数据洞察

3.搭建增长模型-数据洞察

用分享内容举例分享一个内容出去，有很大概率会带来新的用户，会带来下载量提升分享就是一个拉活用户数的方法拆解【提升分享拉新\拉活用户数】： 【提升分享量】【每次分享拉新\拉活用户数】 [谁在分享] 分享用户画像分享高转化用户 …

阅读更多...

vue3 子组件实现v-model用法

vue3 子组件实现v-model用法

在Vue 3中，实现自定义的input组件并支持v-model绑定，涉及到对modelValue这个默认prop的处理和对应的update:modelValue事件的触发。Vue 3使得这个过程比Vue 2更为简化和灵活，尤其是在可以自定义绑定的属性和事件名方面。步骤 1: 创建自定义…

阅读更多...

最新文章