vLLmOllama推理部署以及压测对比

news/2025/10/20 10:35:42/文章来源:https://www.cnblogs.com/zhouyun-yx/p/18902471

前言

　　这篇主要讨论不同推理软件平台的安装部署，之间的差异，以及压测指标的对比。

环境

　　使用的是linux环境，Ubuntu系统

软件安装部署

　　1、vLLm

conda创建虚拟环境，这里需要用到conda，具体的安装方法可以看之前的livaTalking部署博客里面有，liveTalking部署
```
conda create -n deepseek python=3.10 -y
conda activate deepseek
pip install --upgrade pip
```
安装vllm，并安装flash-attn优化插件优化性能
```
# 安装支持T4特性的vLLM版本
pip install vllm# 安装FlashAttention优化组件以提升性能
pip install flash-attn --no-build-isolation
```
这里flash-attn由于网络原因可能安装不了，如果安装不了的话，可以忽略安装

使用魔搭下载模型，也可以在浏览器下载后传到服务器上

# 安装魔搭
pip install modelscope
#使用魔搭下载模型，这里具体的模型名称可以去魔搭上找，看自己的需求要下什么模型
modelscope download --model 【模型名称】

启动服务

vllm serve "/home/deepseek-r1-14b" --task generate 
--max-model-len 4096  　　
--host 0.0.0.0 --port 8102 
--gpu-memory-utilization 0.8 
--swap-space 12  
--max-num-seqs 10 
--dtype bfloat16  
--served-model-name "DeepSeek-R1-Distill-Qwen-14B-Int8-W8A16"  
--enable-reasoning --reasoning-parser deepseek_r1

说明

task：模型的任务类型，
max-model-len：最大上下文长度
gpu-memory-utilization：GPU显存阈值，0-1之间，以10G显存为例，设置0.8表示使用8G显存来启动模型，如果启动过程中超出大小将启动失败
swap-space：GPU于CPU的交换空间大小，用于显存不足的情况，模式已经废弃
max-num-seqs：最大并发数
served-model-name：启动的服务模型名称
enable-reasoning：是否启用模型的 reasoning_content。如果启用，模型将能够生成推理内容。
reasoning-parser:可选值只有一个deepseek_r1，如果设置了enable-reasoning，则这个是必须的，用于将推理响应解析成openAI格式的，不然返回内容会显示异常

实时监控GPU使用情况

# 显存使用监控
watch -n 1 nvidia-smi

　　2、ollama

下载Ollama离线安装包

浏览器访问https://github.com/ollama/ollama/releases/，目前Ollama最新版本在v0.3.13，按照自己的需求选择版本，我这里选择的是v0.3.6的linux版本

下载完成将资源包拷贝到linux服务器上并改名为ollama（这里可以改也可以不改，改了后面操作方便点）
给资源包赋权限，让其可执行（/opt/ollama是目录，最后一个ollama是改过名字的资源包名称）
```
sudo chmod +x /opt/ollama/ollama
```

创建ollama用户和用户组

#创建用户
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
#添加用户组
sudo usermod -a -G ollama $(whoami)

创建服务文件

vim /etc/systemd/system/ollama.service#文件内容如下：[Unit]
Description=Ollama Service
After=network-online.target[Service]
Environment="OLLAMA_HOST=0.0.0.0"
ExecStart=/opt/ollama/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3[Install]
WantedBy=default.target保存之后执行sudo systemctl daemon-reload重新加载服务文件

启动服务，查看状态，停止服务

启动：systemctl start ollama
状态：systemctl status ollama
停止：systemctl stop ollama

添加软链接
由于后面添加离线大模型需要使用ollama命令，方便后面操作所以将ollama运行文件添加软链接
```
ln -s /opt/ollama/ollama  /usr/bin/ollama
source /etc/profile
```
下载大模型文件
可以参照上面使用魔搭下载，模型下载gguf格式的

准备Modelfile文件

vim qwen1_5-0_5b.Modelfil#内容如下FROM ./qwen1_5-0_5b-chat-q4_k_m.ggufTEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""

PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

不同模型的Modelfile内容不同，具体可以参考Ollama官网

创建模型
命令格式如下

ollama create <模型名称> -f <模型对应的Modelfile文件>
```
ollama create qwen1.5:0.5b -f ./qwen1_5-0_5b.Modelfil
```
ollama list 查看有没有创建成功

已成功添加大模型
ollama run qwen1.5:0.5b 运行模型看看运行效果，可以实现ai问答。

Ollama显存优化相关配置：

OLLAMA_NUM_GPU

指定 Ollama 启用的 GPU 数量，需与 CUDA_VISIBLE_DEVICES 中设置的 GPU ID 数量一致‌3。

如只有一块显卡：export OLLAMA_NUM_GPU=1

CUDA_VISIBLE_DEVICES

指定可见的 GPU 设备 ID（通过 nvidia-smi 查询），需与 OLLAMA_NUM_GPU 的值匹配‌。

如：export CUDA_VISIBLE_DEVICES=0

OLLAMA_GPU_LAYER

强制使用 CUDA 分配 GPU 资源。

如：export OLLAMA_GPU_LAYER=cuda

OLLAMA_SCHED_SPREAD

启用GPU负载均衡策略。

如：export OLLAMA_SCHED_SPREAD=1

OLLAMA_MAX_LOADED_MODELS

内存中可同时存在的最大模型数量。

如：export OLLAMA_MAX_LOADED_MODELS=2

OLLAMA_KEEP_ALIVE

模型在内存中存在的时间，可以设置较长时间可以使模型更好的响应服务，避免重新加载模型所需的时间，如果设置-1表示模型永久驻留在内存中。

如：export OLLAMA_KEEP_ALIVE=-1

OLLAMA_NUM_PARALLEL

模型多并发设置，默认值是1，单线程串行处理请求，可以设置大一点，会受资源影响，多并发时响应时间增加。

如：export OLLAMA_NUM_PARALLEL=3

完整配置如下：
```
# GPU 配置
export CUDA_VISIBLE_DEVICES=0
export OLLAMA_NUM_GPU=1
export OLLAMA_GPU_LAYER=cuda
export OLLAMA_SCHED_SPREAD=1# 其他优化
export OLLAMA_MAX_LOADED_MODELS=2  
export OLLAMA_KEEP_ALIVE=-1  
export OLLAMA_NUM_PARALLEL=3 
```

压测指标

安装压测监控软件locust
```
pip install locust
```

编写压测脚本locustfile.py

# locustfile.py 示例
from locust import HttpUser, taskclass VLLMUser(HttpUser):@taskdef generate_text(self):self.client.post("/v1/completions", json={"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B","prompt": "人工智能的未来发展将...","max_tokens": 256})

压测启动命令

locust -f locustfile.py --headless -u 5 -r 1 --run-time 30s###参数说明
-f 指定测试脚本
--headless 立即运行，不使用web界面
-u 最大并发用户数
-r 用户孵化率，每秒产生用户数
-run-time 运行时间

vLLm

服务器情况：A10 24G显存，16核CPU 内存60G

模型：deepseek-r1-Distill-qwen-14b 8位量化版

模型大小：15.4G

最高并发数：10

最大上下文长度：4096

启动完成后GPU显存占用：20G

启动命令：vllm serve "/home/deepseek-r1-14b" --task generate --max-model-len 4096 --host 0.0.0.0 --port 8102 --gpu-memory-utilization 0.8 --swap-space 12 --max-num-seqs 10 --dtype bfloat16 --served-model-name "DeepSeek-R1-Distill-Qwen-14B-Int8-W8A16" --enable-reasoning --reasoning-parser deepseek_r1

locust压测情况

最高并发数10 　　用户孵化率2 　　运行时间：60s

压测结果

GPU显存实时监测情况

调整vLLm最大并发数为20

vllm serve "/home/deepseek-r1-14b" --task generate --max-model-len 4096 --host 0.0.0.0 --port 8102 --gpu-memory-utilization 0.8 --swap-space 12 --max-num-seqs 20 --dtype bfloat16 --served-model-name "DeepSeek-R1-Distill-Qwen-14B-Int8-W8A16" --enable-reasoning --reasoning-parser deepseek_r1

显存使用率相较之前的没有较大增加，表示在增加并发数的情况下，不会过分占用显存资源

locust最大并发数20 用户孵化率5 运行时间 60s

显存使用情况

总结

1、vllm启动成功之后显存基本不会有太大的波动，在高并发下只有轻微波动，但是算力基本的满负荷运行的，算力的高低也影响了推理生成的速度。

2、locust压测参数时间固定之后，总的请求数不会根据最大并发和用户孵化率有较大变动，总的请求数应该和vLLm最大并发设置有关。

3、locust压测说明：总用户数是限制生成的最大用户，用户孵化率是每秒生成用户数，生成用户执行完任务后是不会注销用户的，按最大用户数10，孵化率为2，运行时间60s，在第5秒的时候就达到最大用户数10，之后是不会再生成用户了，由于压测脚本没有设置wait_time，默认为0，由于locust的任务循环机制，运行完一次任务就立刻再次运行任务，大致可以推算出总请求数。

显存和max-model-len和max-num-seqs有关

max-model-len：4096

max-num-seqs（10）

max-num-seqs（20）

max-model-len：5120

max-num-seqs（10）

max-num-seqs（20）

max-model-len 设置8192时，如果调整GPU显存使用阈值gpu-memory-utilization低于0.75，会出现缓存空间分配不足的情况，如果设置大于等于0.75，这会出现上下文空间不足。所以显存使用情况应该是由vLLm多个部分决定的，模型大小是一部分，缓存空间还有上下文空间都需要，所以在设置vLLm启动参数时需要根据实际显存大小调整。

A10显卡设置max-model-len=8192，gpu-memory-utilization=0.85可以正常启动，临界值差不多就在这个区间上下。显存使用情况如下：