deepseek 私有部署文档

news/2025/10/6 9:35:12/文章来源:https://www.cnblogs.com/echosong/p/19127297

一、基于容器创建

进入节点后先启动容器,在容器中进行后续的操作(只需要执行一次就好,只要容器存在,下次直接进入就行)

docker run -it --device=/dev/dri --device=/dev/htcd --group-add video --name openwebui-vllm-deepseek --network=host --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -v /gpfs_ssd/models/DeepSeek-R1-Distill-Llama-70B:/models/DeepSeek-R1-Distill-Llama-70B vllm:hpcc2.27.0.9-torch2.1-py310-ubuntu20.04-amd64 /bin/bash

--name openwebui-vllm-deepseek:容器名称,可随意更改,不与其他容器重复即可

/gpfs_ssd/models/DeepSeek-R1-Distill-Llama-70B:/models/DeepSeek-R1-Distill-Llama-70B:本地模型地址:容器模型地址

vllm:hpcc2.27.0.9-torch2.1-py310-ubuntu20.04-amd64:所基于启动的镜像

其他都是默认选项,一般情况下不推荐更改

创建容器后,以后执行以下命令即可,如果遇到容器关闭,先启动容器(docker start openwebui-vllm-deepseek),在执行以下命令进入,如果想关闭容器(docker stop openwebui-vllm-deepseek)

docker exec -it openwebui-vllm-deepseek bash

进入容器后,四卡启动ds

CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /models/DeepSeek-R1-Distill-Llama-70B/ --port 8000 --device cuda --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max_model_len 8784

CUDA_VISIBLE_DEVICES=0,1,2,3:设置使用的GPU,可在0~7内选择,70B需要四卡

/models/DeepSeek-R1-Distill-Llama-70B/:本地模型的位置,注意这个值和后续API要保持一致

--port 8000:对外暴露的端口,默认8000,可按照自己的需求更改

--tensor-parallel-size 4:指定张量并行的大小,因为这次是4卡启动所以为4

--gpu-memory-utilization 0.95:GPU显存的最大利用率,0.95代表不会超过95%

--max_model_len 8784:指定模型可以处理的最大序列长度,不需要太长,够用即可

# # 等待这条命令运行完毕,即表示API启动完毕,可按照以下的形式通过postman进行验证(显示以下内容表示成功启动)

INFO: Started server process [15]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

注意:post后面的地址要更换为当前服务器的ip,比如当前是10.252.17.35,就用这个替换202.120.92.104,端口默认8000,如果更改就按照更改的来

二、postman调用

注意:model的值要与vllm serve所启动的模型地址一样,不然会被拒绝请求。
三、OpenWebUI部署

单独创建conda环境运行openwebui

conda create -n owu python=3.11 -y
conda activate owu --enable-reasoning
pip install open-webui -i http://mirrors.aliyun.com/pypi/simple

启动前设置好变量

export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=False
export OPENAI_API_BASE_URL=http://127.0.0.1:8000/v1
export RAG_EMBEDDING_MODEL=/workspace/all-MiniLM-L6-v2/
export DEFAULT_MODELS="/models/DeepSeek-R1-Distill-Llama-70B/"

启动即可

open-webui serve

启动后,可以在浏览器通过 10.252.17.35:8080 访问webui,之后可以进行对话

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929161.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL运维及开发规范

一.基础规范 (1) 使用INNODB存储引擎 (2) 表字符集使用UTF8 (3) 所有表都需要添加注释 (4) 单表数据量建议控制在5000W以内 (5) 不在数据库中存储图、文件等大数据 (6) 禁止在线上做数据库压力测试 (7) 禁从测试、开发…

短视频平台差异视角下开源AI智能名片链动2+1模式S2B2C商城小代码的适配性研究——以抖音与快手为例

短视频平台差异视角下开源AI智能名片链动2+1模式S2B2C商城小代码的适配性研究——以抖音与快手为例pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block …

深圳服饰网站建设克拉玛依住房和建设局网站

在用虚拟环境跑深度学习代码时,新建的环境一般会缺少一些库,而一般解决的方法就是直接conda install,但是我在conda install visdom之后,安装是没有任何报错的,conda list里面也有visdom的信息,但是再运行代…

异步读写mysql依赖pymysql (asyncio/ aiomysql)

代码 `import asyncio import aiomysql settings = { "host": "127.0.0.1", "port": 3306, "user": "root", "password": "123456", "db…

dw如何在网站做弹窗手机网站建设公司推荐

处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排…

Linux发行版切换技术全解析

本文深入探讨Linux发行版切换的技术实践,涵盖虚拟机迁移、系统配置同步、文件系统操作等关键技术细节,分享从Kubuntu到OpenSUSE Tumbleweed的实际迁移经验。Ask Hackaday: How Do You Distro Hop? 如果你在Hackaday…

电子网站建设心得工业产品设计要学什么

当前位置:我的异常网 Java Web开发 调用javabean的非常郁闷的异常。调用javabean的非常郁闷的异常。www.myexceptions.net 网友分享于:2013-09-12 浏览:18次调用javabean的非常郁闷的错误。。急!!!我已经做了测试 …

详细介绍:Selenium基础操作方法详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

怎么做自己的淘宝网站南阳做网站哪家好

2345王牌浏览器网页加载慢怎么办?相信很多2345王牌浏览器用户都碰到过这个问题,今天小编就给大家带来这个解决办法,让你拥有极速加载网页。 2345王牌浏览器网页加载慢解决办法 1、打开清除上网痕迹。 入口一:标签栏居中,菜单栏…

完整教程:高效Excel数据净化工具:一键清除不可见字符与格式残留

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

手把手教你用 Docker 部署 Redis

本文详细介绍从轩辕镜像拉取Redis镜像的多种方式(登录验证、免登录、官方直连等),提供快速部署、持久化部署(推荐)、docker-compose部署(企业级)三种方案,还包含结果验证方法及无法远程连接、设置密码等常见问…

悟空博弈单元(WBUC)与广域统一计算(WAUC)研究:价值共生的技术基石——声明Ai研究

悟空博弈单元(WBUC)与广域统一计算(WAUC)研究:价值共生的技术基石 一、研究背景与概述 人工智能技术的发展正经历从单纯的"知识存储"向"知行合一"的深刻范式转变 。在这一转型过程中,传统计算架…

如何快速推广自己的网站旧房装修找哪家

微信爱情指数计算器整蛊app是一款不错的爱情必备的计算器服务,让情侣们有一个很有意思的整蛊服务的App,喜欢的话快来下载吧。微信爱情指数计算器整蛊app介绍1、爱情指数计算器整蛊app是很有意思的一款爱情指数计算器软件2、操作起来也比较的简单&#xf…

掌握形式验证工具,提升芯片验证效率

在当今竞争激烈的 IC 设计行业,确保芯片功能正确且无误至关重要。形式验证工具凭借数学驱动的严谨验证方式,在超越传统仿真方法的同时,为复杂设计提供了更高信心与效率的验证路径。核心优势:为什么选择形式验证工具…

宁波专业网站制作服务济宁做网站建设的公司

来源: 人机与认知实验室摘要:有人机与无人机混合编队协同作战是未来空战的重要形式。有人机是中央指挥,而无人机直接接受有人机的指挥和控制,并进行战场态势感知、目标打击等。有人机和无人机可以看成空间上分离而逻辑上一体的巨型…

长租公寓的生存越来越难了 - 智慧园区

最近两年,受保租房大量入市以及业主直租比例回升影响,长租公寓客源被持续分流,运营压力与日俱增。 在此背景下,通过产品创新来破解获客难题,成为租赁行业发展的迫切需求。 长租公寓,亟需新一轮产品内卷。卷户型 …

天津营销网站建设公司哪家好重庆做网站建设公司排名

一早打开电脑发现代码关联失效了,目测可能跟昨天一些插件更新有关 结论 就这货,开了就没法提示代码关联,估计预览版全是BUG。 另一个坑 同期有个unity插件也是预览版,“非常好使”,当场去世。评论点开有好几个人说用…

Spring Boot中保存前端上传的图片 - 教程

Spring Boot中保存前端上传的图片 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "M…

完整教程:Go语言的context

完整教程:Go语言的context2025-10-06 09:10 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; …

国外做农产品有名的网站手机端网站设计模板

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…