目录
启动脚本
#!/usr/bin/env bash
set -eexport CUDA_VISIBLE_DEVICES=0python -m vllm.entrypoints.openai.api_server \--model /data/models/Qwen1.5-14B-Chat-AWQ \--quantization awq \--max-model-len 4096 \--gpu-memory-utilization 0.9 \> /data/logs/qwen_vllm.log 2>&1 &