使用VLLM推理框架AI大模型部署

1.说明

python环境:最好是3.10-3.12之间

搭建一个uv虚拟环境,避免各环境冲突。

uv安装

#git https://github.com/astral-sh/uv #Linux 安装 curl -LsSf https://astral.sh/uv/install.sh | sh #windows 安装 powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" # 使用 python pip安装 pip install uv

2.魔塔相关命令

# python 环境安装魔搭 uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/ #魔搭模型下载 modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir /mnt/e/model/qwen3-32b-awq modelscope download --model Qwen/Qwen3-Reranker-8B --local_dir /mnt/e/model/qwen3-reranker-8b modelscope download --model Qwen/Qwen3-Embedding-8B --local_dir /mnt/e/model/qwen3-embedding-8b modelscope download --model Qwen/Qwen3-30B-A3B-Thinking-2507 --local_dir ./Qwen3-30B-A3B-Thinking-2507

3.大模型相关命令

(1)启动模型

#如果在62 服务器上启动,需进入到 模型环境中去 source /data/model/.venv/bin/activate #启动30b模型 nohup vllm serve /data/model/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B --tensor-parallel-size 2 --max-model-len 40960--enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & #启动32量化版本(勿动) nohup vllm serve /data/model/Qwen3-32B-AWQ --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 130000 --gpu-memory-utilization 0.85 --max-num-seqs 100 > vllm.log 2>&1 & #启动向量模型 vllm serve /data/model/Qwen3-Embedding-8B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 100 #启动重排模型 #启动视觉模型 nohup vllm serve /data/model/Qwen2.5-VL-7B-Instruct --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 128 > vllm.log 2>&1 & #启动minerU 识别模型 nohup vllm serve /data/model/MinerU2.5-2509-1.2B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-model-len 4096 --max-num-seqs 4 > mineru.log 2>&1 & # 启动32b模型(暂时启动失败了) vllm serve /mnt/e/model/qwen3-32b --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 12000 --quantization fp8

(2)vllm相关命令

#vllm 安装命令 export UV_HTTP_TIMEOUT=300 export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple uv pip install torch==2.8 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128 -i https://mirrors.aliyun.com/pypi/simple/ uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

(3)调整模型上下文长度

#调整上下文长度为128k,YaRN 配置 # 找到模型目录下的config.json文件,修改如下命令 "max_position_embeddings": 131072, "rope_scaling": { "type": "yarn", "factor": 4.0, "original_max_position_embeddings": 32768, "finetuned": true },

4.MinerU相关命令

(1)启动命令

#启动外部模型 mineru -p test1.pdf -o ./outfile1 -b vlm-http-client -u http://localhost:8000 # 帮助文档 mineru --help Usage: mineru [OPTIONS] Options: -v, --version 显示版本并退出 -p, --path PATH 输入文件路径或目录(必填) -o, --output PATH 输出目录(必填) -m, --method [auto|txt|ocr] 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端) -b, --backend [pipeline|vlm-transformers|vlm-vllm-engine|vlm-lmdeploy-engine|vlm-http-client] 解析后端(默认为 pipeline) -l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|th|el|latin|arabic|east_slavic|cyrillic|devanagari] 指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端) -u, --url TEXT 当使用 http-client 时,需指定服务地址 -s, --start INTEGER 开始解析的页码(从 0 开始) -e, --end INTEGER 结束解析的页码(从 0 开始) -f, --formula BOOLEAN 是否启用公式解析(默认开启) -t, --table BOOLEAN 是否启用表格解析(默认开启) -d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端) --vram INTEGER 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端) --source [huggingface|modelscope|local] 模型来源,默认 huggingface --help 显示帮助信息

(2)安装命令

#使用uv安装MinerU pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple pip install uv -i https://mirrors.aliyun.com/pypi/simple uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

5.Linux相关命令

# 查看英伟达GPU nvidia-smi # 杀掉占用的GPU pkill -f VLLM

6.PaddleOCR命令

#1、paddlepaddle 安装 #官网地址:https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/windows-pip.html pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #2、验证paddlepaddle是否按照成功 python import paddle #出现PaddlePaddle is installed successfully!说明安装成功 paddle.utils.run_check() #3、安装PaddleOCR pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1145809.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BongoCat终极指南:让可爱猫咪为你的数字生活注入全新活力

BongoCat终极指南:让可爱猫咪为你的数字生活注入全新活力 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作,每一次输入都充满趣味与活力! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 你是…

GLM-4-9B-Chat-1M完整指南:如何驾驭百万token上下文大模型

GLM-4-9B-Chat-1M完整指南:如何驾驭百万token上下文大模型 【免费下载链接】glm-4-9b-chat-1m 项目地址: https://ai.gitcode.com/zai-org/glm-4-9b-chat-1m 你是否曾因大模型无法完整理解整本书籍而烦恼?是否在处理大型代码库时不得不分段输入&…

鸿蒙远程真机工具HOScrcpy:让跨设备开发变得如此简单

鸿蒙远程真机工具HOScrcpy:让跨设备开发变得如此简单 【免费下载链接】鸿蒙远程真机工具 该工具主要提供鸿蒙系统下基于视频流的投屏功能,帧率基本持平真机帧率,达到远程真机的效果。 项目地址: https://gitcode.com/OpenHarmonyToolkitsPl…

揭秘IOCCC:当C语言代码成为艺术创作的画布

揭秘IOCCC:当C语言代码成为艺术创作的画布 【免费下载链接】winner Winners of the International Obfuscated C Code Contest 项目地址: https://gitcode.com/GitHub_Trending/wi/winner 踏入国际混淆C代码竞赛(IOCCC)的奇幻世界&…

Postman便携版完整指南:免安装快速上手API测试工具

Postman便携版完整指南:免安装快速上手API测试工具 【免费下载链接】postman-portable 🚀 Postman portable for Windows 项目地址: https://gitcode.com/gh_mirrors/po/postman-portable Postman便携版是一款专为开发者打造的即开即用API测试解决…

魔兽地图转换终极指南:从新手到专家的完整教程

魔兽地图转换终极指南:从新手到专家的完整教程 【免费下载链接】w3x2lni 魔兽地图格式转换工具 项目地址: https://gitcode.com/gh_mirrors/w3/w3x2lni w3x2lni作为专业的魔兽地图格式转换工具,为开发者解决了跨版本地图文件处理的难题。这款工具…

Three.js DXF浏览器查看器:终极CAD文件在线预览解决方案

Three.js DXF浏览器查看器:终极CAD文件在线预览解决方案 【免费下载链接】three-dxf A dxf viewer for the browser using three.js 项目地址: https://gitcode.com/gh_mirrors/th/three-dxf 在当今数字化设计时代,Three.js DXF浏览器查看器为工程…

Betaflight固件开发工具链配置最佳实践指南

Betaflight固件开发工具链配置最佳实践指南 【免费下载链接】betaflight Open Source Flight Controller Firmware 项目地址: https://gitcode.com/gh_mirrors/be/betaflight 通过科学配置Betaflight开发工具链,开发者能够获得30%的编译性能提升,…

PicSharp:终极跨平台图片压缩解决方案,10万+图片轻松处理

PicSharp:终极跨平台图片压缩解决方案,10万图片轻松处理 【免费下载链接】PicSharp A simple, efficient and flexible cross-platform desktop image compression application. 项目地址: https://gitcode.com/gh_mirrors/pi/PicSharp 在数字时代…

Snap2HTML终极教程:快速将硬盘目录转换为独立网页的完整指南

Snap2HTML终极教程:快速将硬盘目录转换为独立网页的完整指南 【免费下载链接】Snap2HTML Generates directory listings contained in a single, app-like HTML files 项目地址: https://gitcode.com/gh_mirrors/sn/Snap2HTML 想要将复杂的硬盘目录结构一键转…

百度网盘提取码查询工具完整指南:3步解锁所有隐藏资源

百度网盘提取码查询工具完整指南:3步解锁所有隐藏资源 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘提取码发愁吗?baidupankey这款专业的百度网盘提取码查询工具将彻底解决你的烦恼。无…

Betaflight编译器兼容性终极指南:如何选择正确的GCC版本

Betaflight编译器兼容性终极指南:如何选择正确的GCC版本 【免费下载链接】betaflight Open Source Flight Controller Firmware 项目地址: https://gitcode.com/gh_mirrors/be/betaflight 在嵌入式系统开发中,编译器版本的选择直接影响着固件的稳…

终极魔兽地图转换工具w3x2lni:新手也能轻松上手的完整指南

终极魔兽地图转换工具w3x2lni:新手也能轻松上手的完整指南 【免费下载链接】w3x2lni 魔兽地图格式转换工具 项目地址: https://gitcode.com/gh_mirrors/w3/w3x2lni 还在为魔兽地图格式转换而烦恼吗?w3x2lni作为一款专业的魔兽地图格式转换工具&am…

WarcraftHelper:魔兽争霸III现代化兼容性全面优化方案

WarcraftHelper:魔兽争霸III现代化兼容性全面优化方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为经典游戏魔兽争霸III在现代Wi…

FSearch:重新定义Linux文件搜索体验的终极工具

FSearch:重新定义Linux文件搜索体验的终极工具 【免费下载链接】fsearch A fast file search utility for Unix-like systems based on GTK3 项目地址: https://gitcode.com/gh_mirrors/fs/fsearch 还在为在成千上万的文件中寻找特定文档而烦恼吗&#xff1f…

AI系统质量保证的完整框架:架构师的3大模块(附案例)

AI系统质量保证的完整框架:架构师的3大模块(附案例) 引言 背景介绍 随着人工智能(AI)技术在各个领域的广泛应用,从医疗诊断到金融风险预测,从自动驾驶到智能客服,AI系统的质量变得至…

LeagueAkari完全攻略:英雄联盟智能辅助工具使用宝典

LeagueAkari完全攻略:英雄联盟智能辅助工具使用宝典 【免费下载链接】LeagueAkari ✨兴趣使然的,功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari &#x1f3…

IOCCC编程艺术深度解析:从混乱代码中发掘创意智慧的终极指南

IOCCC编程艺术深度解析:从混乱代码中发掘创意智慧的终极指南 【免费下载链接】winner Winners of the International Obfuscated C Code Contest 项目地址: https://gitcode.com/GitHub_Trending/wi/winner 如何理解这些看似毫无章法的C语言代码?…

Snap2HTML完整教程:轻松将硬盘目录转换为交互式网页

Snap2HTML完整教程:轻松将硬盘目录转换为交互式网页 【免费下载链接】Snap2HTML Generates directory listings contained in a single, app-like HTML files 项目地址: https://gitcode.com/gh_mirrors/sn/Snap2HTML 想要快速备份硬盘目录结构或者创建可离线…

WarcraftHelper终极指南:3步让魔兽争霸III在现代电脑完美运行

WarcraftHelper终极指南:3步让魔兽争霸III在现代电脑完美运行 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸III闪退、卡顿…