使用指定的显卡运行模型
指定使用第0块显卡启动qianwen3-8b模型,运行如下命令:
CUDA_VISIBLE_DEVICES=1 /usr/local/python310/bin/python3 /usr/local/python310/bin/vllm serve /data/llm/qianwen3/8b --max-model-len 16384 --port 81 --api-key 1234 --dtype=half --disable-log-requests --disable-log-stats
指定使用第1和第3块显卡启动qianwen3-8b模型,运行如下命令:
CUDA_VISIBLE_DEVICES=1,3 /usr/local/python310/bin/python3 /usr/local/python310/bin/vllm serve /data/llm/qianwen3/8b --max-model-len 16384 --port 82 --api-key 92322 --dtype=half --disable-log-requests --disable-log-stats
通过脚本方式启动,脚本内容如下:
#use gpu-1 export CUDA_VISIBLE_DEVICES=1 /usr/local/python310/bin/vllm serve /data/llm/baai/bgelargezh/15b --trust-remote-code --port 83 > /data/log/vllm_baai-beglargezh.log 2>&1 &