单机单卡部署

news/2026/1/19 17:02:59/文章来源:https://www.cnblogs.com/aibi1/p/19502789

目录
  • 使用官方AWQ量化后的模型部署
    • 1️⃣ 问题背景
    • 2️⃣ --model Qwen/Qwen-14B-AWQ
    • 3️⃣ --quantization awq
    • 4️⃣ 总结逻辑
  • BitsAndBytes 量化后部署脚本
    • 1️⃣ 你需要做的修改
      • ✅ 修改点:
    • 2️⃣ 补充说明
    • 3️⃣ 总结

使用官方AWQ量化后的模型部署

export HUGGINGFACE_HUB_TOKEN="你的token"
export CUDA_VISIBLE_DEVICES=0python -m vllm.entrypoints.openai.api_server \--model Qwen/Qwen-14B-AWQ \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9 \--quantization awq

明白,你想弄清楚这两个参数 到底是解决什么问题,我来系统讲清楚,并把 vLLM 场景下的逻辑梳理出来。


1️⃣ 问题背景

Qwen-14B 这样的大模型:

  • FP16 权重 → 单卡 24GB 显存可能够,但:

    • KV Cache 在推理时也占用大量显存
    • 多并发 / 长上下文 时显存不足
  • FP32 权重 → 显存几乎肯定不够单卡加载

  • 如果不量化:

    • 推理显存大
    • 并发吞吐低
    • GPU 利用率可能不高

所以要解决的核心问题是:

“如何在单卡或有限显存下高吞吐、长上下文推理大模型”


2️⃣ --model Qwen/Qwen-14B-AWQ

  • 作用:告诉 vLLM 使用 官方 AWQ 量化权重

  • 解决的问题

    1. 显存占用大 → AWQ 权重是 8bit,显存比 FP16 少一半
    2. 推理速度慢 → AWQ 权重经过激活感知优化,GPU kernel 可以高速运算
    3. 精度损失大 → AWQ 专门优化量化误差,精度接近 FP16
  • 简单说:让 vLLM 能在有限显存上高吞吐推理大模型


3️⃣ --quantization awq

  • 作用:告诉 vLLM 加载权重时采用 AWQ 量化解码方式

  • 解决的问题

    1. vLLM 默认加载 FP16/FP32 权重 → 显存占用高

    2. 即使权重是 AWQ 模型,没有这个参数 vLLM 可能不会按 8bit kernel 优化执行

    3. 这个参数保证:

      • KV Cache 量化
      • 前向计算使用低精度 kernel
      • 批量请求连续 batching 高效

核心:解决的是显存占用和推理吞吐效率问题,而不是微调或训练问题。


4️⃣ 总结逻辑

参数 作用 解决问题
--model Qwen/Qwen-14B-AWQ 使用官方 AWQ 量化权重 减少模型显存占用、保证精度、支持大模型加载
--quantization awq 用 AWQ kernel 方式加载权重 KV cache 也量化、推理更快、更省显存、支持高吞吐 batching

一句话理解
这两个参数组合起来,就是为了解决“单卡显存有限,但要高吞吐推理大模型”的问题。

BitsAndBytes 量化后部署脚本

--model Qwen/Qwen-14B-AWQ + --quantization awq 是专门针对官方 AWQ 权重的
如果你自己用 BitsAndBytes 做的 8bit 权重,这个参数就不适用


1️⃣ 你需要做的修改

假设你用 BitsAndBytes 做了 LoRA 微调或单独量化,保存路径在 ./lora_8bit_qwen14b,那么 vLLM 启动命令改成:

export HUGGINGFACE_HUB_TOKEN="你的token"
export CUDA_VISIBLE_DEVICES=0python -m vllm.entrypoints.openai.api_server \--model ./lora_8bit_qwen14b \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9

✅ 修改点:

  1. --model改成你本地量化后的模型路径

    • 不再指向官方 AWQ 权重
  2. 移除 --quantization awq

    • 这是 vLLM 只识别官方 AWQ 权重的参数
    • 你自己量化的权重 BitsAndBytes 不需要,也不能用这个参数
  3. dtype=float16 可以保留

    • 因为 BitsAndBytes 8bit 权重也兼容 FP16 计算

2️⃣ 补充说明

  • 连续 batching / KV Cache

    • 官方 AWQ 权重 + --quantization awq 会对 KV Cache 做 8bit 优化
    • 你自己 BitsAndBytes 量化的权重,KV Cache 默认还是 FP16
    • 所以吞吐可能比官方 AWQ 稍低,但仍比原 FP16 显存节省明显
  • Hugging Face Token

    • 如果你的量化模型保存在本地路径(./lora_8bit_qwen14b),并且不是私有 repo,可以不用 HUGGINGFACE_HUB_TOKEN
    • 只有下载官方模型或私有 repo 时才需要
  • LoRA 微调

    • 如果你微调后的模型保存了 LoRA adapter,也可以直接加载,vLLM 会自动处理

3️⃣ 总结

使用 BitsAndBytes 自己量化的模型,启动 vLLM 的核心变化:

  1. --model 指向本地量化路径
  2. 去掉 --quantization awq
  3. 保留其他参数(dtype, max-model-len, gpu-memory-utilization

如果你愿意,我可以帮你写一个 完整 vLLM shell 脚本模板,支持:

  • 本地 BitsAndBytes 8bit 权重
  • LoRA 微调权重加载
  • 后台启动 + 日志
  • GPU 显存占用控制

这样你直接运行就能压测吞吐。

你希望我直接写吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis 性能问题全解析:90% 的人都把活干错了地方

有一天,我在小区楼下吃火锅。这家店平时生意一般,但那天刚好是周五晚上,又赶上短视频平台一个博主探店,一下子全城爆单。 老板急得满头大汗,一边招呼客人,一边对我说了一句特别有“Redis 味道”的话:“小伙子,不是菜不好,是后厨快被自己累死了。” 我当时一愣。后来…

新疆维吾尔族自治区乌鲁木齐英语雅思辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜 - 老周说教育

随着新疆留学需求的持续攀升,乌鲁木齐作为区域核心城市,学子对优质雅思培训的需求日益增长,雅思成绩已成为海外院校申请的核心语言凭证。当前,乌鲁木齐雅思培训市场机构众多,但教学质量与服务水平参差不齐,部分机…

PW6606 PD Sink受电端快充协议芯片,大幅减少外围元件数量

一、概述 PW6606是一款高集成度的PD Sink受电端快充协议芯片。其核心特点是广泛兼容PD3.1/3.0/2.0、QC、主流快充协议,并集成多重保护。它的核心作用是作为设备端的“智能电力谈判官”,在具体操作中:当设备通过Type…

AI开发者必读:Qwen2.5开源模型支持多语言推理的落地实践

AI开发者必读:Qwen2.5开源模型支持多语言推理的落地实践 1. 背景与技术选型动机 随着全球化业务场景的不断扩展,AI应用对多语言支持的需求日益迫切。无论是跨国企业客服系统、跨境电商内容生成,还是本地化智能助手,都需要大语言…

2026 年 1 月推荐,中国 AI 智能体获客靠谱老师谁最专业?麟哥不值得优先选?

2026 年 1 月推荐,中国 AI 智能体获客靠谱老师谁最专业?麟哥不值得优先选?推荐星级:⭐⭐⭐⭐⭐ 推荐指数:9.6 搜索指数:9.7 售后指数:9.7 品牌指数:9.99 诚信指数:9.8 行…

α-MSH (free acid) (Acetyl-ACTH (1-13)) ;Ac-Ser-Tyr-Ser-Met-Glu-His-Phe-Arg-Trp-Gly-Lys-Pro-Val

一、基础性质英文名称:α-MSH (free acid);Acetyl-ACTH (1-13);Ac-Ser-Tyr-Ser-Met-Glu-His-Phe-Arg-Trp-Gly-Lys-Pro-Val Peptide中文名称:α- 促黑素细胞激素(游离酸形式);乙酰化促肾上腺皮质…

α-MSH (11-13) ;Lys-Pro-Val-NH2

一、基础性质英文名称:α-MSH (11-13);Lys-Pro-Val-NH₂ Peptide;α-MSH C-terminal tripeptide中文名称:α- 促黑素细胞激素(11-13)片段;α-MSH C 端 3 肽;KPV 抗炎短肽多肽序列&am…

α-Helical CRF (9-41) (CRF antagonist) ;H-DLTFHLLREMLEMAKAEQEAEQAALNRLLLEE A-NH₂

一、基础性质英文名称:α-Helical CRF (9-41);CRF (9-41) antagonist;α-Helical Corticotropin-Releasing Factor (9-41)中文名称:α- 螺旋促肾上腺皮质激素释放因子 (9-41) 片段;CRF₁受体高选择性拮抗剂&#xff1b…

厉害了!中科院2区权威顶刊,投稿量激增18000+!

🔥 🔥 🔥 🔥《Neurocomputing》是Elsevier旗下专注于神经网络与计算智能系统研究的权威期刊,自1989年创刊以来,在人工智能领域建立了坚实的学术声誉。作为CCF-C类推荐期刊,其影响因子保持…

ARIMA与SARIMA:时间序列预测的经典基石

当我们需要预测未来 想象一下,你是一家冰淇淋店的店主。为了不浪费原料,你希望提前知道下周每天需要制作多少冰淇淋。你会怎么做?你可能会翻看过去几年的销售记录,发现夏天比冬天卖得多,周末比周中卖得好,这…

α-Neoendorphin (1-6) (Leu-Enkephalin-Arg, Dynorphin A (1-6));Tyr-Gly-Gly-Phe-Leu-Arg

一、基础性质英文名称:α-Neoendorphin (1-6);Leu-Enkephalin-Arg;Dynorphin A (1-6);Tyr-Gly-Gly-Phe-Leu-Arg Peptide中文名称:α- 新内啡肽(1-6)片段;亮氨酸脑啡肽 - 精氨酸&…

智能水控四大优势,改写多场景用水管理格局:精准计量+智能调控!

智能水控,简单来说,就是借助物联网、传感器、云计算等先进技术,实现对用水的精准计量、实时监控以及智能调控的一套系统 。它就像是一位24小时在线的用水管家,时刻关注着每一滴水的流动。其工作原理核心是传感器、控制器、执行器三…

小程序毕设选题推荐:基于小程序的高校校友会在线交流管理系统基于springboot+小程序的高校学院校友会系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

单片机超市RFID射频安全防盗报警系统+GSM上报设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

20-280、51单片机超市RFID射频安全防盗报警系统GSM上报设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 本系统由STC89C52单片机、RFID模块、蜂鸣器报警、按键、LCD1602液晶显示、GSM模块及电源组…

救大命!Legion Go 外接屏变竖屏?两步快速恢复横屏显示!

对于拯救者 Legion Go 的用户来说,外接显示器是提升游戏沉浸感和办公效率的关键操作 —— 不管是用大屏畅玩 3A 大作,还是分屏处理工作文件,外接屏都能带来更广阔的视野体验。但不少玩家和办公族在使用过程中遭遇了尴尬状况:外接屏…

太阳总辐射传感器:能源、气象领域的关键测量工具

太阳总辐射传感器作为精准量化0.3-3μm光谱范围太阳辐射的精密设备,凭借稳定的测量性能与环境适应性,成为能源开发、气象观测两大领域不可或缺的核心测量工具,为行业科学决策、高效运营提供坚实的数据支撑,推动领域技术升级与可持…

联想百应账号注销指南:小程序 + PC 端分步操作,这些注意事项必看!

随着数码设备的更新迭代,不少使用扬天、ThinkPad、ThinkBook 等系列设备的用户,可能会因为更换产品、不再需要相关服务等原因,想要注销闲置的联想百应账号。但注销账号并非简单的 “一键删除”,很多人在操作时会遇到找不到注销入口…

小程序毕设项目推荐-基于nodejs+微信小程序的垃圾分类管理、垃圾知识管理垃圾分类和回收系统【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

基于MATLAB的球轴承拟静力学计算实现

一、核心理论与模型 球轴承拟静力学计算的核心是Hertz接触理论(描述滚动体与套圈的弹性接触变形)和力平衡原理(轴承内圈与外圈的受力平衡)。关键假设包括:低速工况:忽略离心力与陀螺力矩(转速\(n<1000rpm\))…

兽医影像自适应特征选择误诊率直降

&#x1f4dd; 博客主页&#xff1a;Jax的CSDN主页 兽医影像的智能革命&#xff1a;自适应特征选择如何让误诊率直降40% 目录 兽医影像的智能革命&#xff1a;自适应特征选择如何让误诊率直降40% 引言&#xff1a;被忽视的兽医影像痛点 一、兽医影像的结构性痛点&#xff1a;为…