环境:
云服务器Ubuntu
NVIDIA H20 96GB
Qwen2.5-VL-32B
Qwen2.5-VL-72B
问题描述:
如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理,并开启api服务

解决方案:
1.环境准备
硬件要求
- 显卡1(显存需≥48GB,推荐≥64GB)
 - CUDA 11.7或更高版本
 - Python 3.8+
 
2.软件依赖
设置清华conda镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https