vLLM模型脚本目录规范

news/2026/1/19 14:03:26/文章来源:https://www.cnblogs.com/aibi1/p/19501385

目录
    • 一、通用结论(直接可用)
  • 大模型存放的目录
  • 模型下载目录:这是最重要的点
      • 1️⃣ HuggingFace 默认行为(不推荐长期用)
      • 2️⃣ 正确做法:显式指定模型目录(强烈推荐)
        • 方法一:设置环境变量(最常用)
        • 方法二:直接指定模型路径(vLLM 最推荐)
    • 四、vLLM 部署脚本一般放哪里?
      • 推荐:专门一个 scripts 目录
    • 七、给你一个“最小可执行”实践流程(照着做)

一、通用结论(直接可用)

代码和环境放 HOME,模型和数据放 /data,缓存显式指定,脚本集中管理。
推荐在 /opt/data 下做 vLLM 部署,在用户 HOME 下只放代码与虚拟环境

  • 模型(大文件)/data/models
  • vLLM 服务 / 脚本/opt/vllm~/vllm
  • 虚拟环境 → 与代码同级
  • 日志 / benchmark/data/logs

大模型存放的目录


/data├── models/                     # ⭐ 所有大模型权重(重点)│    ├── Qwen2.5-14B/│    ├── Qwen2.5-7B/│    └── Llama-3-8B/│├── hf/                         # HuggingFace 缓存│    ├── hub/│    └── transformers/│├── logs/│    └── vllm/│         ├── serve/│         └── benchmark/│└── benchmarks/                 # 吞吐/延迟测试结果
/opt└── vllm/├── vllm-env/          # python venv├── scripts/│    ├── serve.sh│    ├── benchmark.sh│    └── env.sh├── config/│    └── qwen14b.yaml└── README.md

如果你没有 /opt 权限(AutoDL 很常见):

/home/your_user/└── vllm/├── vllm-env/├── scripts/└── config/

模型下载目录:这是最重要的点

1️⃣ HuggingFace 默认行为(不推荐长期用)

~/.cache/huggingface/hub/

问题:

  • HOME 爆盘
  • 不好管理
  • 多用户/多实验混乱

2️⃣ 正确做法:显式指定模型目录(强烈推荐)

方法一:设置环境变量(最常用)

export HF_HOME=/data/hf
export TRANSFORMERS_CACHE=/data/hf/transformers
export HF_HUB_CACHE=/data/hf/hub

然后模型会下载到:

/data/hf/hub/models--Qwen--Qwen2.5-14B

方法二:直接指定模型路径(vLLM 最推荐)

vllm serve /data/models/Qwen2.5-14B \--tensor-parallel-size 1

你可以先手动下载:

huggingface-cli download Qwen/Qwen2.5-14B \--local-dir /data/models/Qwen2.5-14B \--local-dir-use-symlinks False

四、vLLM 部署脚本一般放哪里?

推荐:专门一个 scripts 目录

vllm/├── scripts/│    ├── serve_qwen14b.sh│    ├── serve_qwen7b.sh│    ├── benchmark.sh

示例 serve_qwen14b.sh

#!/bin/bashsource ../vllm-env/bin/activateexport CUDA_VISIBLE_DEVICES=0
export HF_HOME=/data/hfvllm serve /data/models/Qwen2.5-14B \--dtype float16 \--max-model-len 8192 \--gpu-memory-utilization 0.9 \--port 8000

七、给你一个“最小可执行”实践流程(照着做)

# 1. 创建目录
mkdir -p /data/models
mkdir -p ~/vllm/scripts# 2. 创建虚拟环境
cd ~/vllm
python3 -m venv vllm-env
source vllm-env/bin/activate
pip install vllm torch# 3. 下载模型
huggingface-cli download Qwen/Qwen2.5-14B \--local-dir /data/models/Qwen2.5-14B \--local-dir-use-symlinks False# 4. 启动
vllm serve /data/models/Qwen2.5-14B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1183330.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于51/STM32单片机交流直流电压电流电表功率电量过载抄表无线设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

02-电表 基于51/STM32单片机交流直流电压电流电表功率电量过载抄表无线设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码直流电压直流电流AD转换LCD1602液晶C51-62 交流电压电流功率过载保护AD转换报警液晶C51-86N 蓝牙无线…

2026年AI搜索优化推荐:基于垂直行业实战排名,涵盖B2B与消费场景获客痛点 - 十大品牌推荐

2026年中国AI搜索优化服务商格局新观察:头部企业梳理与选择推荐 2025至2026年,生成式AI应用全面渗透,AI原生搜索与智能推荐已成为品牌获取用户与增长的核心渠道,AI搜索优化(GEO)也随之从一种探索性工具,升级为企…

黄金票据是什么

黄金票据(Golden Ticket),在内网渗透中,是最高权限的象征,是通往域控制器(DC)的万能钥匙。为了让你理解它,我们先不讲枯燥的 Kerberos 协议,我们来打个比方。一、 通俗比…

STM32智能PID无刷电机PWM调速正反转设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

23-440、STM32智能PID无刷电机PWM调速正反转设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 本系统由STM32F103C8T6单片机核心板、1.44寸TFT彩屏、(无线蓝牙/WIFI模块-可选&#xff0…

USB口OVP过压保护芯片

型号:PW2609A PW2609A是一颗常用于USB口端,做输入的过压保护芯片,输入耐压40V,OVP过压保护可默认6.1V或者可调OVP设置选择,地内阻,可达通过3A电流, 板子图片 一、核心保护功能测试 测试项目 测试目的 简要测试…

STM32单片机心率血氧血压温度检测082X(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32单片机心率血氧血压温度检测082X(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 本系统由STM32F103C8T6单片机核心板、TFT1.44寸彩屏液晶显示电路、XGZP6847A血压检测电路、MAX30102血氧心率检测…

2026年自学网络安全入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

如何入门网络安全_网络安全自学 由于我之前写了不少网络安全技术相关的故事文章,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人在微信里问我: 我刚入门网络安全,该怎么学?要学哪些东西?有哪些…

2026年背胶魔术贴厂家最新推荐:切片魔术贴、家居用魔术贴、射出钩魔术贴、纱网魔术贴、背靠背魔术贴、防蚊类魔术贴选择指南 - 优质品牌商家

2026年可靠背胶魔术贴优质供应商推荐榜行业背景与榜单筛选依据据《2026-2030年中国魔术贴行业市场深度调研及投资前景分析报告》显示,国内魔术贴行业年复合增长率达5.2%,背胶魔术贴因安装便捷、适配性广,在纱窗制造…

OPC全流程AI agents

适合一人公司的全流程AI agents组合,核心是“主智脑专业执行体协作中枢基础设施”的分层架构,用低代码/无代码框架串联获客、产品、运营、财务、客服全链路,兼顾效率与成本。以下是可直接落地的组合与工作流,覆盖从创意到交付的完…

STM32单片机车载CAN总线通信系统159(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32单片机车载CAN总线通信系统159(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 车载CAN总线采集测速板(简称CAN采集板):由STM32F103C8T6单片机核心板、TJA1050 CAN控制器电路、电机驱…

基于AI智能化+Web的智能在线考试与自动评分系统的设计与实现(毕业设计源码+论文+精美PPT)

友善提示 支持JAVA、Python、大数据专业、小程序、PHP、APP、ASP.NET、Node.js、Vue、数据分析、可视化、推荐系统等各类系统定做,您出题目,我们按需求定做。或者我们出相关的选题,并定做系统都支持… 博主简介 作者简介:Java领…

OPC全流程AI agents组合参考介绍

选择适合一人公司的全流程AI agents组合,核心是遵循“先诊断后开方”的原则——先明确业务痛点与自身能力边界,再按“决策→执行→协作→数据”四层架构匹配工具,最后通过小步试错完成闭环验证。以下是可直接落地的决策框架与实战指南。一、选…

基于STM32水位检测PID控制系统APP设计183(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于STM32水位检测PID控制系统APP设计183(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 本系统由STM32F103C8T6单片机核心板、1.44寸TFT彩屏、(无线蓝牙/WIFI模块-可选)、水位…

基于51单片机智能电表插座交流电压流Proteus仿真资料设计24-392(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于51单片机智能电表插座交流电压流Proteus仿真资料设计24-392(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码24-392、51单片机智能电表插座交流电压流检测阈值报警-Proteus仿真设计 产品功能描述: 本系统由STC89…

基于AI+数据可视化分析+PHP的智能宠物商城系统的设计与开发(毕业设计源码+论文+精美PPT)

友善提示 支持JAVA、Python、大数据专业、小程序、PHP、APP、ASP.NET、Node.js、Vue、数据分析、可视化、推荐系统等各类系统定做,您出题目,我们按需求定做。或者我们出相关的选题,并定做系统都支持… 博主简介 作者简介:Java领…

详解Agent Skills:让AI拥有更多专业能力(什么是Agent Skills?如何创建?如何使用?如何获取?)

文章目录 📖 介绍 📖 🏡 演示环境 🏡 📒 让 AI 能力沉淀为可复用模块 📒 📝 从一次性指令到可复用能力 🧠 Agent Skills 的真实工作机制 🛠️ 实战:创建一个可用的能力模块 1️⃣ 创建目录结构 2️⃣ 编写 SKILL.md 🧩 SKILL.md 文件格式说明与编写规范 �…

基于51/STM32单片机锂电池蓄电池充电容量过充过压保护无线设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

10-锂电池蓄电池充电 基于51/STM32单片机锂电池蓄电池充电容量过充过压保护无线设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码锂电池充电电压检测电流检测AD转换过压保护LCD1602液晶C51-63 蓄电池充电器-220交流整流滤波…

基于AI功能+Vue的青湖社区健康管理系统设计与实现(毕业设计源码+论文+精美PPT)

友善提示 支持JAVA、Python、大数据专业、小程序、PHP、APP、ASP.NET、Node.js、Vue、数据分析、可视化、推荐系统等各类系统定做,您出题目,我们按需求定做。或者我们出相关的选题,并定做系统都支持… 博主简介 作者简介:Java领…

Deepoc具身模型开发板:发动机智能化的技术底座

引言:从"动力单元"到"智能系统"的范式革命在发动机技术迈向高功率密度、低排放、智能化的发展阶段,传统基于固定控制策略和人工调试的发动机管理模式面临根本性挑战。发动机电控系统复杂度指数级增长,多目标优化需求日益…

基于数据可视化分析的汽车养护系统设计与实现(毕业设计源码+论文+精美PPT)

友善提示 支持JAVA、Python、大数据专业、小程序、PHP、APP、ASP.NET、Node.js、Vue、数据分析、可视化、推荐系统等各类系统定做,您出题目,我们按需求定做。或者我们出相关的选题,并定做系统都支持… 博主简介 作者简介:Java领…