vLLM常用参数解释
--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072
--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 token 数量(包括所有请求的 prompt + 已生成的 token)
--max-num-seqs 64:一个 batch 中最多同时处理的请求数量(即并发序列数),即使总 token 数远低于 8192,也不能超过 64 个请求同时处理
--quantization awq:指定量化方式
--dtype=auto:自动选择精度
--trust-remote-code
--distributed-executor-backend=ray :通过ray群集运行
--pipeline-parallel-size 2 :指定节点群集数量
--tensor-parallel-size 2:指定每个节点所使用的显卡数量
--gpu-memory-utilization 0.9:限制每个显卡使用量