零基础教程：手把手教你用vLLM启动DeepSeek-R1轻量化大模型

本教程将带你从零开始，在本地环境中使用vLLM成功部署并运行DeepSeek-R1-Distill-Qwen-1.5B轻量化大模型。无论你是AI初学者还是希望快速搭建推理服务的开发者，本文都提供了完整、可复现的操作流程。

1. 环境准备与系统要求

在开始之前，请确保你的硬件和软件环境满足以下条件：

1.1 硬件要求

GPU：NVIDIA 显卡（推荐至少8GB显存，如 GTX 4060 Ti / RTX 3070 或更高）
内存：≥16GB RAM
存储空间：≥20GB 可用磁盘空间（用于模型下载和缓存）

1.2 软件依赖

组件	版本/说明
操作系统	Windows 10/11（支持WSL2）或 Linux（Ubuntu 20.04+）
WSL2	必须启用（仅Windows用户需要）
CUDA Toolkit	≥11.8
Python	≥3.10（建议通过 Anaconda 管理）
vLLM	最新版本（支持 OpenAI API 兼容接口）

注意：vLLM 目前不支持原生 Windows 运行，必须通过 WSL2 在 Windows 上部署 Linux 子系统来完成安装。

2. 安装运行环境（以Windows为例）

2.1 启用WSL2并安装Linux发行版

打开 PowerShell（管理员权限），依次执行以下命令：

# 启用WSL功能 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart # 启用虚拟机平台 dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart

重启电脑后，下载并安装 WSL2 内核更新包。

设置默认版本为 WSL2：

wsl --set-default-version 2

从 Microsoft Store 安装 Ubuntu 22.04 LTS，安装完成后启动并设置用户名和密码。

2.2 安装Anaconda3

进入 WSL2 终端，下载并安装 Anaconda：

cd /mnt/d wget https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh bash Anaconda3-2024.06-1-Linux-x86_64.sh

按提示完成安装，并确认是否将conda添加到.bashrc。安装完成后验证：

conda -V

若未生效，手动添加路径：

echo 'export PATH=$PATH:/home/your-username/anaconda3/bin' >> ~/.bashrc source ~/.bashrc

2.3 安装CUDA驱动（WSL内）

NVIDIA 已为 WSL 提供专用 CUDA 支持。执行以下命令安装：

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-wsl-ubuntu-11-8-local_11.8.0-1_amd64.deb sudo dpkg -i cuda-repo-wsl-ubuntu-11-8-local_11.8.0-1_amd64.deb sudo cp /var/cuda-repo-wsl-ubuntu-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda

安装完成后重启 WSL：

wsl --shutdown

重新进入终端后检查 GPU 是否可见：

nvidia-smi

应能看到类似输出：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.129.03 Driver Version: 537.58 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 NVIDIA GeForce ... On | 00000000:01:00.0 Off | N/A | | N/A 48C P8 10W / N/A | 120MiB / 8192MiB | 5% Default | +-------------------------------+----------------------+----------------------+

2.4 创建Python虚拟环境并安装vLLM

conda create -n env-vllm python=3.12 -y conda activate env-vllm pip install vllm

验证安装成功：

vllm --help

3. 下载DeepSeek-R1-Distill-Qwen-1.5B模型

该模型可通过 ModelScope 或 Hugging Face 获取。我们推荐使用 Git + LFS 方式下载。

3.1 安装Git LFS

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs git lfs install

3.2 克隆模型仓库

假设你已将模型保存至 E:\models，映射为/mnt/e/models：

mkdir -p /mnt/e/models cd /mnt/e/models git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git

等待下载完成（约 3~5 分钟，取决于网络速度）。最终目录结构如下：

/mnt/e/models/DeepSeek-R1-Distill-Qwen-1.5B/ ├── config.json ├── model.safetensors ├── tokenizer_config.json └── ...

4. 使用vLLM启动模型服务

激活虚拟环境并启动服务：

conda activate env-vllm vllm serve /mnt/e/models/DeepSeek-R1-Distill-Qwen-1.5B \ --gpu-memory-utilization 0.92 \ --max-model-len 90000

4.1 参数说明

参数	作用
`--gpu-memory-utilization 0.92`	设置GPU内存利用率，避免OOM
`--max-model-len 90000`	支持超长上下文（9万token）
`--port 8000`	自定义端口（默认8000）
`--host 0.0.0.0`	允许外部访问（调试时可用）

启动成功后，你会看到日志中出现：

INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

表示模型服务已在本地8000端口监听。

5. 测试模型服务是否正常运行

5.1 查看模型信息

你可以通过 curl 请求获取模型列表：

curl http://localhost:8000/v1/models

预期返回包含模型名称的信息。

5.2 编写Python客户端调用测试

创建一个测试脚本test_model.py：

from openai import OpenAI # 初始化OpenAI兼容客户端 client = OpenAI( base_url="http://localhost:8000/v1", api_key="none" # vLLM不需要真实API Key ) # 发起聊天请求 response = client.chat.completions.create( model="DeepSeek-R1-Distill-Qwen-1.5B", messages=[ {"role": "user", "content": "请用中文介绍一下人工智能的发展历史"} ], temperature=0.6, max_tokens=512 ) print("AI回复：") print(response.choices[0].message.content)

运行脚本：

python test_model.py

如果输出一段关于AI发展史的合理回答，则说明部署成功。

6. 高级使用技巧与最佳实践

6.1 推荐参数配置

根据官方建议，使用 DeepSeek-R1 系列模型时应遵循以下配置：

参数	推荐值	说明
`temperature`	0.6	控制生成多样性，过高易发散，过低重复
`system prompt`	不使用	所有指令应放在 user 消息中
`数学问题提示词`	`"请逐步推理，并将最终答案放在\\boxed{}内。"`	提升解题准确性
`强制换行`	在输出开头加`\n`	防止跳过思维链

示例数学提问：

messages = [ {"role": "user", "content": "\\n请逐步推理，并将最终答案放在\\boxed{}内。\n求解方程：x^2 - 5x + 6 = 0"} ]

6.2 流式输出实现

对于长文本生成，推荐使用流式响应提升用户体验：

import asyncio from vllm import AsyncEngineClient async def stream_inference(): engine = AsyncEngineClient("http://localhost:8000") async for chunk in engine.generate("你好，世界", "model"): print(chunk.text, end="", flush=True) # 注意：需配合异步框架使用

或使用 OpenAI SDK 的流模式：

stream = client.chat.completions.create( model="DeepSeek-R1-Distill-Qwen-1.5B", messages=[{"role": "user", "content": "写一首关于秋天的诗"}], stream=True ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end="", flush=True) print()