书生大模型实战营第三期进阶岛第三课——LMDeploy 量化部署实践

LMDeploy 量化部署实践

  • 任务一:
    • 创建虚拟环境
    • 创建文件夹LMDEPLOY用于存放课程相关的文件
    • 创建模型软连接
    • LMDeploy验证启动模型文件
    • LMDeploy API部署InternLM2.5-1.8b
    • 以命令行形式连接API服务器
    • 以Gradio网页形式连接API服务器
    • LMDeploy KV量化
    • W4A16 模型量化和部署
    • W4A16 量化+ KV cache+KV cache 量化
    • API开发
  • 任务2:Function call

任务一:

  • 使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话,作业截图需包括显存占用情况与大模型回复

创建虚拟环境

conda create -n lmdeploy  python=3.10 -y
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3

在这里插入图片描述

创建文件夹LMDEPLOY用于存放课程相关的文件

mkdir LMDEPLOY
cd LMDEPLOY

创建模型软连接

mkdir models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-7b-chat /root/LMDEPLOY/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat /root/LMDEPLOY/models
ln -s /root/share/new_models/OpenGVLab/InternVL2-26B /root/LMDEPLOY/models

LMDeploy验证启动模型文件

lmdeploy chat /root/LMDEPLOY/models/internlm2_5-1_8b-chat

简单问一下mindsearch是什么
在这里插入图片描述

新开一个bash窗口,查看当前gpu使用情况

studio-smi

在这里插入图片描述
可以看到模型占用GPU 20G

LMDeploy API部署InternLM2.5-1.8b

启动API服务器

lmdeploy serve api_server \/root/LMDEPLOY/models/internlm2_5-1_8b-chat \--model-format hf \--quant-policy 0 \--server-name 0.0.0.0 \--server-port 23333 \--tp 1

在这里插入图片描述
此时的gpu占用20G
在这里插入图片描述
打开powershell
运行一下命令

ssh -CNg -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 你的ssh端口号

打开浏览器,访问http://127.0.0.1:23333看到如下界面即代表部署成功。
在这里插入图片描述

以命令行形式连接API服务器

新开一个窗口运行一下命令

conda activate lmdeploy
lmdeploy serve api_client http://localhost:23333

此时便可以在命令行和模型进行对话
在这里插入图片描述

以Gradio网页形式连接API服务器

输入以下命令,使用Gradio作为前端,启动网页。

lmdeploy serve gradio http://localhost:23333 \--server-name 0.0.0.0 \--server-port 6006

在这里插入图片描述
打开powershell 输入以下命令

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 你的ssh端口号

打开浏览器,访问http://127.0.0.1:6006看到如下界面即代表部署成功。
在这里插入图片描述

LMDeploy KV量化

LMDeploy 支持在线 kv cache int4/int8 量化,量化方式为 per-head per-token 的非对称量化。此外,通过 LMDeploy 应用 kv 量化非常简单,只需要设定 quant_policy 和cache-max-entry-count参数。目前,LMDeploy 规定 quant_policy=4 表示 kv int4 量化,quant_policy=8 表示 kv int8 量化。

输入以下指令,启动API服务器。

lmdeploy serve api_server \/root/LMDEPLOY/models/internlm2_5-1_8b-chat \--model-format hf \--quant-policy 4 \--cache-max-entry-count 0.4\--server-name 0.0.0.0 \--server-port 23333 \--tp 1

新开一个窗口查看gpu占用情况,约为12G,对比默认的cache-max-entry-count 0.8 少占用了8G左右
在这里插入图片描述

W4A16 模型量化和部署

运行以下命令开始量化模型

lmdeploy lite auto_awq \/root/LMDEPLOY/models/internlm2_5-1_8b-chat \--calib-dataset 'ptb' \--calib-samples 128 \--calib-seqlen 2048 \--w-bits 4 \--w-group-size 128 \--batch-size 1 \--search-scale False \--work-dir /root/LMDEPLOY/models/internlm2_5-1_8b-chat-w4a16-4bit

在这里插入图片描述
等待了1个多小时后,量化终于完成
在这里插入图片描述
大小和原模型相比小了1半以上
启动看一下显存占用情况

lmdeploy chat /root/LMDEPLOY/models/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq

在这里插入图片描述
显存占用情况不没有少很多

W4A16 量化+ KV cache+KV cache 量化

两种量化手段一起上

lmdeploy serve api_server \/root/LMDEPLOY/models/internlm2_5-1_8b-chat-w4a16-4bit/ \--model-format awq \--quant-policy 4 \--cache-max-entry-count 0.4\--server-name 0.0.0.0 \--server-port 23333 \--tp 1

显存占用
在这里插入图片描述

API开发

启动API服务器

lmdeploy serve api_server \/root/LMDEPLOY/models/internlm2_5-1_8b-chat-w4a16-4bit \--model-format awq \--cache-max-entry-count 0.4 \--quant-policy 4 \--server-name 0.0.0.0 \--server-port 23333 \--tp 1

此时得显存占用是
在这里插入图片描述
新建internlm2_5.py。

touch /root/LMDEPLOY/internlm2_5.py

输入以下代码

# 导入openai模块中的OpenAI类,这个类用于与OpenAI API进行交互
from openai import OpenAI# 创建一个OpenAI的客户端实例,需要传入API密钥和API的基础URL
client = OpenAI(api_key='YOUR_API_KEY',  # 替换为你的OpenAI API密钥,由于我们使用的本地API,无需密钥,任意填写即可base_url="http://0.0.0.0:23333/v1"  # 指定API的基础URL,这里使用了本地地址和端口
)# 调用client.models.list()方法获取所有可用的模型,并选择第一个模型的ID
# models.list()返回一个模型列表,每个模型都有一个id属性
model_name = client.models.list().data[0].id# 使用client.chat.completions.create()方法创建一个聊天补全请求
# 这个方法需要传入多个参数来指定请求的细节
response = client.chat.completions.create(model=model_name,  # 指定要使用的模型IDmessages=[  # 定义消息列表,列表中的每个字典代表一个消息{"role": "system", "content": "你是一个友好的小助手,负责解决问题."},  # 系统消息,定义助手的行为{"role": "user", "content": "帮我讲述一个关于狐狸和西瓜的小故事"},  # 用户消息,询问时间管理的建议],temperature=0.8,  # 控制生成文本的随机性,值越高生成的文本越随机top_p=0.8  # 控制生成文本的多样性,值越高生成的文本越多样
)# 打印出API的响应结果
print(response.choices[0].message.content)

运行python代码

python /root/LMDEPLOY/internlm2_5.py

在这里插入图片描述
此时代表我们成功地使用本地API与大模型进行了一次对话,如果切回第一个终端窗口,会看到如下信息,这代表其成功的完成了一次用户问题GET与输出POST。
在这里插入图片描述

任务2:Function call

启动API服务器
友情提示,这个任务要用internlm2_5-7b-chat, 1.8b那个模型不会调用工具,无论是量化前还是量化后

lmdeploy serve api_server \/root/LMDEPLOY/models/internlm2_5-7b-chat \--model-format hf \--quant-policy 0 \--server-name 0.0.0.0 \--server-port 23333 \--tp 1

新建internlm2_5_func.py。

touch /root/LMDEPLOY/internlm2_5_func.py

输入以下代码:

from openai import OpenAIdef add(a: int, b: int):return a + bdef mul(a: int, b: int):return a * btools = [{'type': 'function','function': {'name': 'add','description': 'Compute the sum of two numbers','parameters': {'type': 'object','properties': {'a': {'type': 'int','description': 'A number',},'b': {'type': 'int','description': 'A number',},},'required': ['a', 'b'],},}
}, {'type': 'function','function': {'name': 'mul','description': 'Calculate the product of two numbers','parameters': {'type': 'object','properties': {'a': {'type': 'int','description': 'A number',},'b': {'type': 'int','description': 'A number',},},'required': ['a', 'b'],},}
}]
messages = [{'role': 'user', 'content': 'Compute (3+5)*2'}]client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:23333/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(model=model_name,messages=messages,temperature=0.8,top_p=0.8,stream=False,tools=tools)
print(response)
func1_name = response.choices[0].message.tool_calls[0].function.name
func1_args = response.choices[0].message.tool_calls[0].function.arguments
func1_out = eval(f'{func1_name}(**{func1_args})')
print(func1_out)messages.append({'role': 'assistant','content': response.choices[0].message.content
})
messages.append({'role': 'environment','content': f'3+5={func1_out}','name': 'plugin'
})
response = client.chat.completions.create(model=model_name,messages=messages,temperature=0.8,top_p=0.8,stream=False,tools=tools)
print(response)
func2_name = response.choices[0].message.tool_calls[0].function.name
func2_args = response.choices[0].message.tool_calls[0].function.arguments
func2_out = eval(f'{func2_name}(**{func2_args})')
print(func2_out)

运行脚本:

python /root/LMDEPLOY/internlm2_5_func.py

在这里插入图片描述
我们可以看出InternLM2.5将输入’Compute (3+5)*2’根据提供的function拆分成了"加"和"乘"两步,第一步调用function add实现加,再于第二步调用function mul实现乘,再最终输出结果16.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/878237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习日志28

论文阅读:Quantum speed-ups in reinforcement learning 量子强化学习(Quantum Reinforcement Learning, QRL)是一种结合了量子计算和强化学习的方法,旨在利用量子力学的原理来加速和优化智能体的学习过程。量子加速则是指利用量子…

valgrind安装及使用

安装 下载源码下载地址 tar -jxvf valgrind-3.23.0.tar.bz2 cd valgrind-3.23.0 ./autogen.sh ./configure --prefix安装目录 make make install使用文档 官方文档

create-react-app 移除 ESLint 语法检查

ESLint 的作用: ESLint 是一个流行的 JavaScript 代码静态检查工具,旨在帮助开发者识别和修复代码中的问题。以下是关于 ESLint 的一些关键信息: 主要功能: 1.代码风格检查:ESLint 可以检查代码是否符合特定的编码风…

mysql 数据区备份

第一步 ,进入mysql窗口锁住数据库(不锁的可以只执行第二步): use dbName-- 使用xx数据库flush tables with read lock; -- 锁住数据库。第二步:打开cmd窗口,或者liunx命令行窗口 C:\Users\User>mysqld…

经典算法之链表篇(二)

目录 一:重排链表(LeetCode.143) 二:删除链表的节点(LCR 136. 删除链表的节点) 三:K个一组反转链表(LeetCode.25) 有关经典算法链表的第一篇内容,可以查看我…

ESXi服务器无法安装Windows11:“不符合此版本的Windows所需最低系统要求“

目录 一、问题描述1.使用环境2.问题截图3.问题解析 二、解决方法Ⅰ1.按 ShiftF10 弹出命令提示符2.在弹出的Dos框中输入regedit,回车,进入注册表。3.打开HKEY_LOCAL_MACHINE\SYSTEM\Setup,并新建 LabConfig 的项,在 LabConfig 下创…

使用预训练的 ONNX 格式的 YOLOv8n 模型进行目标检测,并在图像上绘制检测结果

目录 __init__方法: pre_process方法: run方法: filter_boxes方法: view_img方法: __init__方法: 初始化类的实例时,创建一个onnxruntime的推理会话,加载名为yolov8n.onnx的模型…

C#开发基础之100个常用的C#正则表达式

前言 正则表达式是处理字符串的强大工具,特别是在文本搜索、替换和验证中。本文将100个常用的C#正则表达式进行分类,以帮助我们更快速地找到适合的正则表达式解决方案。 1. 基础匹配 这些正则表达式用于匹配一些基本的字符或字符串模式。 匹配任意字…

利用 Pytest Cache Fixture 实现中间数据缓存

接口自动化过程中,经常会遇到这样一些场景,“请求2需要用到请求1响应的数据”,常见的做法,进行用例依赖或者将请求1的响应结果写入一个文件,用到的时候读取文件。 当然这都不是这篇文章的重点,本片文章主要…

macos MacPort 包管理工具安装和使用

在macos v10.15版本中, xz, python等软件无法使用brew安装, 原因是brew对于旧版本的macos不再支持, 但是我们可以使用另外一个macos下的包管理工具来安装brew无法安装的软件, macport 是一个和brew类似的macos下的一个非常优秀的软件包安装管理工具. MacPort安装前提条件 安…

AR.js 开发与使用指南

1. AR.js 简介 AR.js 是基于 Web 技术的 AR 库,依赖于 WebGL 和 WebRTC,可以在大多数现代浏览器上运行。它的主要优势在于不需要安装任何插件或应用程序,用户只需通过浏览器即可体验 AR 效果。AR.js 提供了 Marker-based(基于标记…

假期学习--对象底层结构和继承链

OC本质底层实现转化其实都是C/C代码。 OC对象的本质就是结构体。 NSObject底层是struct objc_object结构体 ;struct objc_class : objc_object { …省略无关代码 // Class ISA; //ISA(从objc_object继承过来的) Class superclass; //指向其父类 cache_t cache…

【Istio】

Istio 是一个开源的服务网格(Service Mesh)平台,设计用于帮助开发者和运维人员管理、保护和监控微服务架构。随着微服务架构的广泛采用,服务间通信的管理变得越来越复杂。Istio 通过在服务之间插入一个透明的网络层,简…

旅游行业怎么利用C#接口发送短信

旅游企业一般拥有众多的分支机构,同时各地分支机构又有众多下属分散在当地各区的旅游营业报名点,以前传统的解决方案是采用专线、MODEM拔号等方式,专线的成本很高,MODEM拔号更费时,且长途拔号互联成本在多点情况下费用…

企业数据治理之主数据---供应商主数据

一、供应商主数据的定义 供应商是向企业或个人提供商品、服务或资源的个人、公司或其他实体。一般企业内部的供应商有多种,有零部件采购供应商、材料采购供应商、设备采购供应商、外协生产供应商等,而且这些供应商在企业内部有可能有不同的部门负责&…

微前端集成优化:让所有子应用体积更小,加载更快!

简介 随着前端的日益发展,微前端架构越来越受到青睐。它通过将前端应用拆分为多个独立的子应用,每个子应用可以独立开发、部署和运行,从而提升了开发效率和团队协作。目前主流的微前端方案应该是qiankun了。 以笔者公司为例,采用…

基于SpringBoot的在线答疑系统

你好呀,我是计算机专业毕业生,专注于在线教育平台的开发与实现。 开发语言:Java 数据库:MySQL 技术:Java技术 Spring Boot框架 工具:IntelliJ IDEA、Navicat、Maven、Tomcat 系统展示 首页 个人中心…

【C#】【EXCEL】Bumblebee/Components/Analysis/GH_Ex_Ana_CondAverage.cs

Bumblebee/Components/Analysis/GH_Ex_Ana_CondAverage.cs 这段代码定义了一个名为 GH_Ex_Ana_CondAverage 的类,它是一个 Grasshopper 组件。这个组件的主要功能是为 Excel 工作表中的一个范围添加基于平均值的’条件格式’。以下是对这个组件的功能和特点的详细介…

FFmpeg源码:read_packet_wrapper、fill_buffer函数分析

AVIOContext结构体和其相关的函数分析: FFmpeg源码:avio_r8、avio_rl16、avio_rl24、avio_rl32、avio_rl64函数分析 FFmpeg源码:read_packet_wrapper、fill_buffer函数分析 FFmpeg源码:avio_read函数分析 FFmpeg源码&#xff…

scrapy--图片管道-ImagesPipeline

免责声明:本文仅做演示与分享~ 目录 介绍 ImagesPipeline pipelines.py items.py zz.py settings.py 介绍 scrapy 还提供了处理图片、视频、音频等媒体文件的插件,如: - scrapy-images:用于下载和处理图片 - scrapy-video&#xff1…