vllm镜像下载,国内代理源
vllm/vllm-openai - Docker Image - 毫秒镜像https://1ms.run/r/vllm/vllm-openai
执行下载docker pull docker.1ms.run/vllm/vllm-openai
查看本地镜像
查看镜像
查看镜像
docker images导出镜像
docker save -o E:\docker\ollama.tar docker.1ms.run/ollama/ollama:latest
导入镜像
docker load < ollama.tar
启动镜像
docker run --runtime nvidia --gpus '"device=0,1,2,3"' --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4
参数解释:
-v :目录映射
--gpus 使用卡数
ps:
如遇到如下问题,可在启动命令上增加 --privileged
示例
docker run --privileged --runtime nvidia --gpus '"device=0,1,2,3"' --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4