阿里云一键部署DeepSeek-V3、DeepSeek-R1模型

目录

支持的模型列表

模型部署

模型调用

WebUI使用

在线调试

API调用

关于成本

FAQ

点击部署后服务长时间等待

服务部署成功后,调用API返回404

请求太长导致EAS网关超时

部署完成后,如何在EAS的在线调试页面调试

模型部署之后没有“联网搜索”功能

模型服务如何集成到AI应用(以Dify为例)


DeepSeek-V3是由深度求索公司推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。Model Gallery提供了BladeLLM、SGLang和vLLM加速部署功能,帮助您一键部署DeepSeek-V3和DeepSeek-R1系列模型。

支持的模型列表

说明

DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大(671B),所需配置和成本较高(8卡96G显存以上)。建议您选择蒸馏版模型(机器资源较充足、部署成本较低)。

根据测试,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优,适合云上部署,可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署,Model Gallery还提供了模型评测功能,可以评测模型实际效果(评测入口在模型详情页右上角)。

表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。

模型

最低配置

支持的最大Token数

部署方式为BladeLLM加速(推荐)

部署方式为SGLang加速(推荐)

部署方式为vLLM加速

部署方式为标准部署

DeepSeek-R1

8卡GU120(8 * 96 GB显存)

不支持

163840

4096

不支持

DeepSeek-V3

8卡GU120(8 * 96 GB显存)

不支持

163840

4096

2000

DeepSeek-R1-Distill-Qwen-1.5B

1卡A10(24 GB显存)

131072

不支持

131072

131072

DeepSeek-R1-Distill-Qwen-7B

1卡A10(24 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-8B

1卡A10(24 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-14B

1卡GPU L(48 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-32B

2卡GPU L(2 * 48 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-70B

2卡GU120(2 * 96 GB显存)

131072

不支持

32768

131072

部署方式说明:

  • BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。

  • SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。

  • vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。

  • 标准部署:不使用任何推理加速的标准部署。

推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。

加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。

模型部署

  1. 进入Model Gallery页面。

    1. 登录PAI控制台。

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

    4. 在左侧导航栏选择快速开始 > Model Gallery

  2. 在Model Gallery页面右侧的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,单击进入模型详情页面。

  3. 单击右上角部署,选择部署方式和部署资源后,即可一键部署,生成一个 PAI-EAS 服务。

说明

如果部署DeepSeek-R1或DeepSeek-V3模型,您可以选择的机型包括:

  • ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共资源,库存可能较紧张)

  • ecs.ebmgn8v.48xlarge(无法通过公共资源使用,请购买EAS专属资源)

 

模型调用

您可以通过下表了解不同部署方式支持的模型调用方式。

BladeLLM部署

SGLang部署

vLLM部署

标准部署

WebUI

不支持,需本地启动WebUI。详情请参见WebUI使用。

支持

在线调试

支持。详情请参见在线调试。

API调用

所有部署方式都支持通过以下接口发送HTTP POST请求调用模型。

  • completions 接口:<EAS_ENDPOINT>/v1/completions

  • chat 接口:<EAS_ENDPOINT>/v1/chat/completions

注意,标准部署还支持Endpoint后面不添加任何内容直接调用。详情请参见API调用。

重要

使用BladeLLM加速部署方式,如果不指定max_tokens参数,默认会按照max_tokens=16进行截断。建议您根据实际需要调整请求参数max_tokens。

WebUI使用

如果是标准部署,支持Web应用。在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在服务详情页面右上角单击查看WEB应用,即可通过ChatLLM WebUI进行实时交互。

image

非标准部署,可下载Web UI代码,在本地启动一个Web UI。

注意:BladeLLM和vLLM、SGLang部署使用的Web UI代码不同。

  • BladeLLM:BladeLLM_github、 BladeLLM_oss

  • vLLM、SGLang:vLLM_github、vLLM_oss

python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"

 

在线调试

PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在在线测试模块中找到EAS在线调试的入口,使用如下示例数据测试接口。

注意:在线调试中已经填充的路径是以下示例中的<EAS_ENDPOINT>

单击查看请求数据示例

API调用

  1. PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。

  2. 单击查看调用信息获取调用的 Endpoint 和 Token。

  3. 单击预训练模型跳转到Model Gallery的模型介绍页查看API调用方式的详细说明。

    image

    image

关于成本

  • 由于DeepSeek-V3和DeepSeek-R1模型较大,模型部署费用较高,建议用于正式生产环境。

  • 您还可以选择部署经过知识蒸馏的轻量级模型,这些模型的参数量显著减少,从而大幅降低部署成本。

  • 如果您从未使用过EAS,可以前往阿里云试用中心领取PAI-EAS试用资源。领取成功后,可以在Model Gallery选择最低配置为 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)进行部署,并在部署时修改资源规格为试用活动中的机型。

  • 对于长期使用的模型,您可以采用公共资源组搭配节省计划的方式,或者购买预付费EAS资源组来节约成本。

  • 如果是非生产环境使用,可以在部署时打开竞价模式,但需满足一定条件才能竞价成功,且有资源不稳定的风险。

FAQ

点击部署后服务长时间等待

可能的原因:

  • 当前地域下机器资源不足。

  • 由于模型较大,模型加载耗时较长(对于DeepSeek-R1、DeepSeek-V3这样的大模型,需要20-30min)。

您可以耐心等待观察一段时间,如果服务仍长时间无法正常启动运行,建议尝试以下步骤:

  1. 进入任务管理-部署任务,查看部署任务详情页。在页面右上角单击更多 > 更多信息,跳转到PAI-EAS的模型服务详情,查看服务实例状态。

    EAS实例状态

  2. 关闭当前服务,并在控制台左上角切换到其他地域重新部署服务。

    说明

    对于DeepSeek-R1、DeepSeek-V3这样的超大参数量模型,需要8卡GPU才能启动服务(资源库存较紧张),您可以选择部署DeepSeek-R1-Distill-Qwen-7B等蒸馏小模型(资源库存较富裕)。

服务部署成功后,调用API返回404

请检查调用的URL是否加上了OpenAI的API后缀,例如v1/chat/completions。详情可以参考模型主页调用方式介绍。

请求太长导致EAS网关超时

EAS默认网关的请求超时时间是180秒,如果需要延长超时时间,可以配置EAS专属网关,并提交工单调整专属网关的请求超时时间,最大可以调整到600秒。

部署完成后,如何在EAS的在线调试页面调试

详情请参见如何在线调试已部署的模型?

模型部署之后没有“联网搜索”功能

“联网搜索”功能并不是仅通过直接部署一个模型服务就能实现的,而是需要基于该模型服务自行构建一个AI应用(Agent)来完成。

通过PAI的大模型应用开发平台LangStudio,可以构建一个联网搜索的AI应用,详情请参考Chat With Web Search应用流。

模型服务如何集成到AI应用(以Dify为例)

以DeepSeek-R1-Distill-Qwen-7B模型为例,建议采用vLLM加速部署。

  1. 在Dify中编辑“模型供应商”,添加更多模型供应商“OpenAI-API-compatible”:

    image

  2. 模型名称填写“DeepSeek-R1-Distill-Qwen-7B”,API Key填写EAS服务Token,API endpoint URL填写EAS服务endpoint(注意末尾加上/v1)。EAS服务Token和endpoint获取方式:进入Model Gallery的任务管理-部署任务,在部署任务详情页面单击查看调用信息

    image

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/70097.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Win10环境借助DockerDesktop部署大数据时序数据库Apache Druid

Win10环境借助DockerDesktop部署最新版大数据时序数据库Apache Druid32.0.0 前言 大数据分析中&#xff0c;有一种常见的场景&#xff0c;那就是时序数据&#xff0c;简言之&#xff0c;数据一旦产生绝对不会修改&#xff0c;随着时间流逝&#xff0c;每个时间点都会有个新的…

【第13章:自监督学习与少样本学习—13.1 自监督学习最新进展与实现方法】

凌晨三点的实验室,博士生小王盯着屏幕里正在"自娱自乐"的神经网络——这个没有吃过一张标注图片的模型,正在通过旋转、拼图、填色等游戏任务,悄悄掌握着理解世界的秘诀。这种魔法般的修炼方式,正是当今AI领域最炙手可热的技术:自监督学习。 一、打破数据枷锁:自…

数据库报错1045-Access denied for user ‘root‘@‘localhost‘ (using password: YES)解决方式

MySQL 报错 1045 表示用户root从localhost连接时被拒绝访问&#xff0c;通常是因为密码错误、权限问题或配置问题。以下是解决该问题的常见方法&#xff1a; 方法一&#xff1a;检查用户名和密码 • 确认用户名和密码是否正确&#xff1a; 确保输入的用户名和密码完全正确&am…

八大排序——简单选择排序

目录 1.1基本操作&#xff1a; 1.2动态图&#xff1a; 1.3代码&#xff1a; 代码解释 1. main 方法 2. selectSort 方法 示例运行过程 初始数组 每轮排序后的数组 最终排序结果 代码总结 1.1基本操作&#xff1a; 选择排序&#xff08;select sorting&#xff09;也…

与传统光伏相比 城电科技的光伏太阳花有什么优势?

相比于传统光伏&#xff0c;城电科技的光伏太阳花有以下优势&#xff1a; 一、发电效率方面 智能追踪技术&#xff1a;光伏太阳花通过内置的智能追踪系统&#xff0c;采用全球定位跟踪算法&#xff0c;能够实时调整花瓣&#xff08;即光伏板&#xff09;的角度&#xff0c;确…

FPGA的星辰大海

编者按 时下风头正盛的DeepSeek,正值喜好宏大叙事的米国大统领二次上岗就业,OpenAI、软银、甲骨文等宣布投资高达5000亿美元“星际之门”之际,对比尤为强烈。 某种程度上,,是低成本创新理念的直接落地。 包括来自开源社区的诸多赞誉是,并非体现技术有多“超越”,而是…

Elasticsearch:15 年来致力于索引一切,找到重要内容

作者&#xff1a;来自 Elastic Shay Banon 及 Philipp Krenn Elasticsearch 刚刚 15 岁了&#xff01;回顾过去 15 年的索引和搜索&#xff0c;并展望未来 15 年的相关内容。 Elasticsearch 刚刚成立 15 周年。一切始于 2010 年 2 月的一篇公告博客文章&#xff08;带有标志性的…

嵌入式软件、系统、RTOS(高软23)

系列文章目录 4.2嵌入式软件、系统、RTOS 文章目录 系列文章目录前言一、嵌入式软件二、嵌入式系统三、嵌入式系统分类四、真题总结 前言 本节讲明嵌入式相关知识&#xff0c;包括软件、系统。 一、嵌入式软件 二、嵌入式系统 三、嵌入式系统分类 四、真题 总结 就是高软笔记…

数据结构 day02

3. 线性表 3.1. 顺序表 3.1.3. 顺序表编程实现 操作&#xff1a;增删改查 .h 文件 #ifndef __SEQLIST_H__ #define __SEQLIST_H__ #define N 10 typedef struct seqlist {int data[N];int last; //代表数组中最后一个有效元素的下标 } seqlist_t;//1.创建一个空的顺序表 seq…

数据恢复-01-机械硬盘的物理与逻辑结构

磁盘存储原理 磁盘存储数据的原理&#xff1a; 磁盘存储数据的原理是利用磁性材料在磁场作用下的磁化性质&#xff0c;通过在磁盘表面上划分成许多小区域&#xff0c;根据不同的磁化方向来表示0和1的二进制数据&#xff0c;通过读写磁头在磁盘上的移动&#xff0c;可以实现数据…

wordpress get_footer();与wp_footer();的区别的关系

在WordPress中&#xff0c;get_footer() 和 wp_footer() 是两个不同的函数&#xff0c;它们在主题开发中扮演着不同的角色&#xff0c;但都与页面的“页脚”部分有关。以下是它们的区别和关系&#xff1a; 1. get_footer() get_footer() 是一个用于加载页脚模板的函数。它的主…

DeepSeek 通过 API 对接第三方客户端 告别“服务器繁忙”

本文首发于只抄博客&#xff0c;欢迎点击原文链接了解更多内容。 前言 上一期分享了如何在本地部署 DeepSeek R1 模型&#xff0c;但通过命令行运行的本地模型&#xff0c;问答的交互也要使用命令行&#xff0c;体验并不是很好。这期分享几个第三方客户端&#xff0c;涵盖了桌…

跟着李沐老师学习深度学习(十一)

经典的卷积神经网络 在本次笔记中主要介绍一些经典的卷积神经网络模型&#xff0c;主要包含以下&#xff1a; LeNet&#xff1a;最早发布的卷积神经网络之一&#xff0c;目的是识别图像中的手写数字&#xff1b;AlexNet&#xff1a; 是第一个在大规模视觉竞赛中击败传统计算机…

使用JavaScript实现深浅拷贝

1. 拷贝的基本概念和必要性 在 JavaScript 中&#xff0c;数据类型分为基本数据类型&#xff08;如 Number、String、Boolean、Null、Undefined、Symbol&#xff09;和引用数据类型&#xff08;如 Object、Array&#xff09;。基本数据类型存储的是值本身&#xff0c;而引用数…

解析浏览器中JavaScript与Native交互原理:以WebGPU为例

引言 随着Web应用复杂度的提升&#xff0c;开发者对浏览器访问本地硬件能力的需求日益增长。然而&#xff0c;浏览器必须在开放性与安全性之间找到平衡——既不能放任JavaScript&#xff08;JS&#xff09;随意操作系统资源&#xff0c;又要为高性能计算、图形渲染等场景提供支…

T-Sql 打印所有用户表的建表脚本

-- 声明一个变量用于存储表名 DECLARE TableName NVARCHAR(128); -- 声明一个游标&#xff0c;用于遍历所有用户表 DECLARE TableCursor CURSOR FOR SELECT name FROM sys.tables WHERE type U; -- 打开游标 OPEN TableCursor; -- 从游标中获取第一行数据 FETCH NEXT FROM Ta…

25/2/16 <算法笔记> MiDas原理

MiDaS&#xff08;Monocular Depth Sensing&#xff09;是一种基于单目深度估计的技术&#xff0c;它通过深度学习方法使用单张RGB图像&#xff08;普通2D图像&#xff09;来估算场景的深度图&#xff08;Depth Map&#xff09;。相比于传统的依赖专用深度传感器&#xff08;如…

python+halcon 解读labelme标注生成marksimage

这一段代码封装了一个类&#xff0c;需要传统一个图片和标注后json文件所在的地址&#xff0c;标注的选项是polygon&#xff0c;主要是用于unet深度学习网络 在初始化时需要输入文件&#xff08;imagejeson&#xff09;路径&#xff0c;多分类任务的label_list。会在项目目录下…

从技术债务到架构升级,滴滴国际化外卖的变革

背 景 商家营销简述 在外卖平台的运营中&#xff0c;我们致力于通过灵活的补贴策略激励商家&#xff0c;与商家共同打造良好的合作关系&#xff0c;也会提供多样化的营销活动&#xff0c;帮助商家吸引更多用户下单。通过这些活动&#xff0c;不仅能够提高商家的销量&#xff0c…

英语—四级CET4考试—技巧篇—选词填空—实操教学—2014 年 6 月大学英语四级考试真题(第 2 套)

&#x1f3e0;个人主页&#xff1a;fo安方的博客✨ &#x1f482;个人简历&#xff1a;大家好&#xff0c;我是fo安方&#xff0c;目前中南大学MBA在读&#xff0c;也考取过HCIE Cloud Computing、CCIE Security、PMP、CISP、RHCE、CCNP RS、PEST 3等证书。&#x1f433; &…