LMDeploy 大模型量化部署实践


大模型部署背景

 
LMDeploy简介
轻量化、推理引擎、服务
 
 
核心功能-量化
显存消耗变少了
 
 
 大语言模型是典型的访存密集型任务,因为它是decoder-by-decoder
先把数据量化为INT4存起来,算的时候会反量化为FP16
 
 AWQ算法:观察到模型在推理过程中,只有一小部分参数是重要的参数,这部分参数不量化,其他的参数量化,这样保留了显存,性能也不会下降多少
核心功能-推理引擎

 不用等到整个batch结束
 
 
 

 

核心功能-推理服务api server

动手实践环节
https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md