vllm 大模型推理框架

news/2025/10/15 11:31:12/文章来源:https://www.cnblogs.com/pass-ion/p/19141719

vLLM 通过命令行工具 python -m vllm.entrypoints.api_server 启动 OpenAI 兼容的 API 服务器,其参数涵盖了模型加载、推理、调度和服务的各个方面。

启动命令基本结构

bash
python -m vllm.entrypoints.api_server \--model <model_name_or_path> \[其他参数]

核心参数分类详解

1. 模型加载参数

 
参数默认值说明
--model 必填 模型名称或路径(Hugging Face 模型ID或本地路径)。
--tokenizer None 可选,单独指定 tokenizer 的名称或路径。如果未指定,则使用 --model 的值。
--tokenizer-mode auto Tokenizer 加载模式。auto(自动), slow(使用HF慢速tokenizer)。
--trust-remote-code False 重要:如果模型需要自定义代码(如某些国产模型),必须添加此参数以信任远程代码。
--download-dir None 模型下载的缓存目录。
--load-format auto 模型权重加载格式。auto, dummy(随机权重,用于测试), safetensors(强制使用 safetensors), npcache(串行缓存), tensorizer
--seed 0 随机数种子,用于可复现性。

2. 推理与调度参数(性能关键)

参数默认值说明
--tensor-parallel-size 1 张量并行的GPU数量。用于将模型层拆分到多个GPU上。例如,对于 7B/8B 模型,通常设为 1;对于 70B 模型,可设为 4 或 8。
--block-size 16 PagedAttention 的块大小。通常保持默认即可,调整它可能影响内存碎片和性能。
--swap-space 4 GPU显存不足时,用于交换到CPU内存的空间大小(GB)。
--gpu-memory-utilization 0.9 GPU显存利用率(0到1之间)。例如 0.9 表示使用 90% 的GPU显存。如果遇到 OOM,可以适当调高。
--max-num-batched-tokens None 一次前向传播中最大批处理的 token 数。vLLM 会自动调整,但可以手动设置以控制延迟。
--max-num-seqs 256 最大并发序列数(批大小)。如果请求排队严重,可以适当增大;如果显存小,可以减小。
--max-model-len None 手动指定模型上下文长度。vLLM 通常会从模型配置中读取,但如果读取失败或你想覆盖,可以用此参数。
--enforce-eager False 强制使用 eager 模式而非 CUDA graph。会降低性能,但用于调试。

3. 服务与API参数

 
参数默认值说明
--host 0.0.0.0 API 服务器监听的主机地址。0.0.0.0 表示监听所有网络接口。
--port 8000 API 服务器监听的端口。
--uvicorn-log-level info Uvicorn 服务器的日志级别。debuginfowarningerrorcritical
--api-key None 可选,设置 API 密钥以启用认证。如果设置,客户端必须在 Authorization 头中提供 Bearer <api-key>
--root-path None 在代理后面运行时,设置应用的根路径。

4. 量化与优化参数

参数默认值说明
--quantization None 量化方法。例如 awq(对于支持的 AWQ 量化模型), gptqsqueezellmfp8(H100等支持)。
--dtype auto 模型计算的数据类型。auto(自动从权重推断), half(torch.float16), bfloat16float(torch.float32)。
--revision None 指定加载的模型版本(git revision,如分支名或commit id)。

完整示例

示例 1:基础启动(7B模型,单卡)

bash
python -m vllm.entrypoints.api_server \--model Qwen/Qwen2.5-7B-Instruct \--tokenizer-mode auto \--trust-remote-code \--host 0.0.0.0 \--port 8000

示例 2:多GPU张量并行 + 高并发配置

bash
python -m vllm.entrypoints.api_server \--model Qwen/Qwen2.5-72B-Instruct \--tokenizer Qwen/Qwen2.5-72B-Instruct \--tensor-parallel-size 4 \--gpu-memory-utilization 0.95 \--max-num-seqs 512 \--trust-remote-code \--host 0.0.0.0 \--port 8000

示例 3:使用 AWQ 量化模型以节省显存

bash
python -m vllm.entrypoints.api_server \--model lmsys/vicuna-7b-v1.5-awq \--quantization awq \--gpu-memory-utilization 0.8

示例 4:设置API密钥和自定义上下文长度

bash
python -m vllm.entrypoints.api_server \--model meta-llama/Llama-3.1-8B-Instruct \--max-model-len 8192 \--api-key "your-secret-token-123" \--host 127.0.0.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/937369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Claude Code入门教程】CLAUDE.md完整解析与实战示例_Claude Code安装配置全流程与API代理使用指南

【Claude Code入门教程】CLAUDE.md完整解析与实战示例_Claude Code安装配置全流程与API代理使用指南Claude Code 是 Anthropic 推出的一个 agentic 编码工具 (agentic coding tool),可以在命令行(terminal)中运行,…

10 15

p4577开始的想法是维护每个节点上的权值线段树上存的局部最优解,然后用线段树合并进行转移 然后写+调了整整1个半小时后,我发现这个做法是可行的,但是实现极其复杂,故我开始思考了新的做法 可以沿用 \(O (N \log{N…

2025 年滑梯厂家最新推荐排行榜:涵盖组合 / 户外 / 木质 / 不锈钢 / 儿童滑梯,精选优质厂家

随着游乐产业快速发展,滑梯作为核心游乐设备需求激增,但市场乱象让采购者陷入选择困境。部分厂商缺乏核心技术,产品同质化严重,无法适配文旅、地产、幼儿园等不同场景需求;有些厂商忽视安全标准,未通过权威认证,…

可以实现从一个方法返回多个不同类型的值

可以实现从一个方法返回多个不同类型的值1、使用元组(Tuple):可以返回一个包含多个值的元组。元组可以是匿名的(使用括号语法)或者使用Tuple类。 2、使用out参数:在方法参数中使用out关键字,可以在方法内部为这…

2025 年最新游乐设备厂家权威推荐榜单:涵盖儿童 / 户外 / 室内 / 水上乐园等多场景设备,为采购与合作提供精准参考

当前游乐设备行业伴随文旅、地产及公共休闲领域发展持续扩张,但市场乱象凸显:品牌数量激增导致产品质量两极分化,多数品牌缺乏核心研发能力,同质化产品充斥市场,难以满足文旅项目、幼儿园、社区等不同场景的个性化…

2025 年中频炉厂商最新推荐排行榜权威发布:剖析应达电气等实力企业核心优势,助力企业精准选设备

当前工业领域中,中频炉作为冶金、熔炼、机械制造等行业的关键设备,其品质与性能直接关乎企业生产效率、成本控制及环保合规。但随着市场需求增长,中频炉品牌数量激增,产品质量参差不齐,部分设备存在能耗高、稳定性…

NETCORE - 健康检查health

NETCORE - 健康检查health 环境 .net8 需求在 项目里面 添加健康检查 1. 添加nuget包:Microsoft.Extensions.Diagnostics.HealthChecks2. 注入在 Program.cs 里面// 添加健康检查 builder.Services.AddHealthChecks(…

2025 年办公桌厂家最新推荐排行榜重磅发布:实力口碑双优品牌全解析,企业采购必看指南

在办公家具采购场景中,办公桌的品质直接影响办公效率与企业成本控制,但当前市场品牌繁杂、乱象丛生:部分厂商原材料以次充好,甲醛超标问题频发;新锐品牌虽宣传亮眼,却缺乏成熟生产体系支撑,交货延期、售后缺位成…

HTML 和 Streamlit ,到底哪个好 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025 办公家具厂家最新推荐榜:实木 / 现代 / 环保 / 智能 / 定制全品类精选,产品力服务力双优企业盘点

在 “双碳” 目标与数字化转型推动下,办公家具市场正加速向绿色化、智能化、场景化转型,2024 年国内智能办公家具市场规模同比增长 23%。但行业仍存在产品同质化严重、环保与质量参差不齐、服务体系不完善等问题,给…

F1005D. 「阶段测试5」合影

题意: 有 \(n\) 个人排成一排,每个点 \(i\) 最多会给出一条限制,形如 \((i,j)\) 表示点 \(i\) 必须站在 \(j\) 的左侧。问有多少种成立的方案数,答案对输入的模数 \(p\) 取模。 对于\(100\%\) 的数:\(n≤2\times…

2025 年铝外壳铝型材厂家选购指南:美容仪/充电宝/暴力风扇铝外壳铝型材,精选优质厂商助力企业高效选型

随着 3C 数码、智能家居、户外装备等行业的快速发展,以及消费者对产品外观、散热性与耐用性要求的提升,铝型材凭借轻量化、易加工、耐腐蚀等优势,应用场景已从传统工业领域逐步拓展至美容仪、充电宝、光模块等多个细…

Windows 11 25H2来了,附升级教程及windows官方镜像下载

介绍 Windows 11 25H2不知不觉出推送了,算是2025年度更新了,此时距离上一个大版本升级 24H2 发布已经过去了整整一年,24,25也特别容易理解,现在系统 iSO 镜像也上线了。 不过一个变化是 25H2 并没有向 Win 11 用户…

2025 年灌装生产线厂家最新推荐榜单:饮料 / 矿泉水 / 纯净水 / 桶装水 / 全自动灌装生产线厂家权威评选及选购指南

当前液体产品生产行业中,灌装生产线作为核心设备,其品质直接决定企业生产效率与产品质量。但市场上品牌繁杂,设备性能差异悬殊,众多企业在选购时屡屡陷入困境:部分设备自动化水平不足,难以适配规模化生产;部分品…

鸿蒙应用开发从入门到实战(二十二):使用Stack实现层叠布局

ArkUI提供了各种布局组件用于界面布局,本文研究使用Stack组件实现层叠布局。界面布局:层叠布局 大家好,我是潘Sir,持续分享IT技术,帮你少走弯路。《鸿蒙应用开发从入门到项目实战》系列文章持续更新中,陆续更新A…

我造了个程序员练兵场,专治技术焦虑症!

你别说,这 AI 骂人好脏啊!你是一名月薪 3000 的程序员,慕名来到鱼皮的技术练兵场,听闻此地可通过不断挑战提升技术水平和薪资,策马奔腾。事不宜迟,准备挑战吧,愿君武运昌隆!本文对应视频版:https://bilibili.…

原创2025年小红书创作者影响力分析报告:基于10

如需更多高质量数据,欢迎访问典枢数据交易平台 2025年小红书创作者影响力分析报告:基于10.5万条数据构建评估模型,识别高影响力内容特征,优化推荐算法与运营策略,涵盖用户分层、互动数据、地理位置分布,提供内容…

原创2020年纽约市交通事故数据集深度解析:基于74,881条记录的智能交通管理与自动驾驶算法训练实战指南,覆盖超速、分心驾驶、天气因素等多维度事故原因分析,助力城市安全治理从被动应对转向主动预防

如需更多高质量数据,欢迎访问典枢数据交易平台 2020年纽约市交通事故数据集深度解析:基于74,881条记录的智能交通管理与自动驾驶算法训练实战指南,覆盖超速、分心驾驶、天气因素等多维度事故原因分析,助力城市安全…

原创2000万道+K12教育题库数据集:覆盖小学到高中全学段多学科智能教育训练数据,助力AI教育应用与个性化学习系统开发

如需更多高质量数据,欢迎访问典枢数据交易平台 2000万道+K12教育题库数据集:覆盖小学到高中全学段多学科智能教育训练数据,助力AI教育应用与个性化学习系统开发 引言与背景 在人工智能技术飞速发展的今天,教育领域…

原创1747张YOLO标注奶牛水牛识别数据集:精准标注跨场景动物检测模型训练专用计算机视觉数据集,助力智慧农业与畜牧业AI算法研发

如需更多高质量数据,欢迎访问典枢数据交易平台 1747张YOLO标注奶牛水牛识别数据集:精准标注跨场景动物检测模型训练专用计算机视觉数据集,助力智慧农业与畜牧业AI算法研发 引言与背景 在当今数字化农业和智慧畜牧业…