DeepSeek 开源模型全解析(2024.1.1–2025.2.6)

目录

一、通用大语言模型:DeepSeek-V3 系列 137

二、推理优化模型:DeepSeek-R1 系列 811

三、多模态模型:Janus 系列 10

四、生态整合与部署建议

五、总结与展望


以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:


一、通用大语言模型:DeepSeek-V3 系列 137
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-V31.0总参数 671B,激活参数 37B架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30%
性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet
效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文
2024-12-26Hugging Face
DeepSeek-V3-Base1.0同 DeepSeek-V3- 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架
- 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化
2024-12-26Hugging Face

部署要求

  • 硬件:推荐使用 4 台华为 Atlas 800I A2 服务器(每台配置 8×64G 显存)2

  • 软件:支持昇腾 MindIE 镜像(预置推理脚本)或 Hugging Face 本地部署工具链


二、推理优化模型:DeepSeek-R1 系列 811
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-R11.0总参数 671B强化学习驱动:通过纯强化学习实现复杂推理能力,无需监督微调
性能对标:在 LiveCodeBench 等编程任务中超越 OpenAI o1,数学推理接近 Claude-3.5-Sonnet
思维链 API:输出包含推理过程(最长 32K tokens),支持企业级应用透明化决策
2025-01-23Hugging Face
DeepSeek-R1-Zero1.0总参数 671B纯 RL 训练:首个无需监督微调的推理模型,验证强化学习在复杂任务中的潜力
局限:输出存在重复与语言混杂问题,主要用于研究场景
2025-01-21Hugging Face
R1-Distill 系列1.015B–70B知识蒸馏:从 R1 蒸馏的小模型,32B 和 70B 版本性能对标 OpenAI-o1-mini
硬件友好:支持低显存设备部署
2025-01-23Hugging Face

部署要求

  • 硬件:R1 全量版需与 DeepSeek-V3 类似配置;蒸馏版 70B 可在单台 A100(80G)运行

  • API 集成:支持腾讯云 HAI、阿里云 PAI 等平台一键部署611


三、多模态模型:Janus 系列 10
模型名称版本号参数规模特点公布时间下载地址
Janus-Pro-7B1.07B文生图 SOTA:GenEval 准确率 80%(超 DALL-E 3 的 61%)
多模态融合:支持图像描述、视觉问答与跨模态检索
2025-01-28Hugging Face
JanusFlow1.0未公开流程优化:扩展 Janus-Pro 的视频生成与编辑能力,支持动态场景连续推理2025-01-28Hugging Face

部署要求

  • 硬件:Janus-Pro-7B 可在 RTX 4090(24G 显存)运行,FP16 量化后显存占用低于 10G

  • 框架:需搭配 Diffusers 库与 PyTorch 2.3+


四、生态整合与部署建议
  1. 云平台支持

    • 百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署,限时免费配额 1000 RPM613

    • 腾讯云 HAI 支持 3 分钟启动 R1 模型,集成对象存储与开发工具链11

  2. 本地优化方案

    • FP8 推理:利用 LMDeploy 压缩显存占用(V3 需 4×H800)1

    • 动态蒸馏:企业可根据场景选择 R1-Distill 系列降低算力成本8

  3. 开源协议

    • 所有模型遵循 MIT 协议,允许商业用途与二次开发11


五、总结与展望

DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型,实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣(如百度、阿里、华为云全面接入613),更以 1/10 训练成本(对比 GPT-4)重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重,结合昇腾或英伟达硬件构建定制化 AI 服务。未来,DeepSeek 计划扩展多模态与深度思考功能,进一步缩小开源与闭源模型的差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/68216.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac: docker安装以后报错Command not found: docker

文章目录 前言解决办法(新的)解决步骤(原来的)不推荐总结 前言 ​本操作参考 http://blog.csdn.net/enhenglhm/article/details/137955756 原作者,更详细请,查看详细内容请关注原作者。 一般,…

《手札·开源篇》数字化转型助力永磁电机企业降本增效:快速设计软件如何让研发效率提升40%?

数字化转型助力永磁电机企业降本增效:快速设计软件如何让研发效率提升40%? 一、痛点:传统研发模式正在吃掉企业的利润 永磁电机行业面临两大挑战: 研发周期长:一款新电机从设计到量产需6-12个月,电磁计算…

0207作业

思维导图 服务器 enum Type{TYPE_REGIST,TYPE_LOGIN };typedef struct Pack{int size;enum Type type;char buf[2048];}pack_t;typedef struct list{union Data{struct List* tail;char str[64];}data;struct List* next;struct List* prev; }List;List* create_node(){List* …

深入浅出 DeepSeek V2 高效的MoE语言模型

今天,我们来聊聊 DeepSeek V2 高效的 MoE 语言模型,带大家一起深入理解这篇论文的精髓,同时,告诉大家如何将这些概念应用到实际中。 🌟 什么是 MoE?——Mixture of Experts(专家混合模型&#x…

RabbitMQ 从入门到精通:从工作模式到集群部署实战(五)

#作者:闫乾苓 系列前几篇: 《RabbitMQ 从入门到精通:从工作模式到集群部署实战(一)》:link 《RabbitMQ 从入门到精通:从工作模式到集群部署实战(二)》: lin…

nodejs:express + js-mdict 网页查询英汉词典,能播放.spx 声音

向 DeepSeek R1 提问: 我想写一个Web 前端网页,后台用 nodejs js-mdict , 实现在线查询英语单词,并能播放.spx 声音文件 1. 项目结构 首先,创建一个项目目录,结构如下: mydict-app/ ├── public/ │ …

Linux ftrace 内核跟踪入门

文章目录 ftrace介绍开启ftraceftrace使用ftrace跟踪指定内核函数ftrace跟踪指定pid ftrace原理ftrace与stracetrace-cmd 工具KernelShark参考 ftrace介绍 Ftrace is an internal tracer designed to help out developers and designers of systems to find what is going on i…

【抽象代数】1.1. 运算及关系

集合与映射 定义1. 设 为 的子集,定义 到 的映射 : 使得 ,称 为 到 的嵌入映射。 定义2. 设 为 的子集, 为 到 的映射, 为 到 的映射,如果 ,称为的开拓, 为 的限制&…

pytest+request+yaml+allure 接口自动化测试全解析[手动写的跟AI的对比]

我手动写的:Python3:pytest+request+yaml+allure接口自动化测试_request+pytest+yaml-CSDN博客 AI写的:pytest+request+yaml+allure 接口自动化测试全解析 在当今的软件开发流程中,接口自动化测试扮演着至关重要的角色。它不仅能够提高测试效率,确保接口的稳定性和正确性…

数据库高安全—审计追踪:传统审计统一审计

书接上文数据库高安全—角色权限:权限管理&权限检查,从权限管理和权限检查方面解读了高斯数据库的角色权限,本篇将从传统审计和统一审计两方面对高斯数据库的审计追踪技术进行解读。 4 审计追踪 4.1 传统审计 审计内容的记录方式通…

第三个Qt开发实例:利用之前已经开发好的LED驱动在Qt生成的界面中控制LED2的亮和灭

前言 上一篇博文 https://blog.csdn.net/wenhao_ir/article/details/145459006 中,我们是直接利用GPIO子系统控制了LED2的亮和灭,这篇博文中我们利用之前写好的LED驱动程序在Qt的生成的界面中控制LED2的亮和灭。 之前已经在下面两篇博文中实现了LED驱动…

deepseek来讲lua

Lua 是一种轻量级、高效、可嵌入的脚本语言,广泛应用于游戏开发、嵌入式系统、Web 服务器等领域。以下是 Lua 的主要特点和一些基本概念: 1. 特点 轻量级:Lua 的核心非常小,适合嵌入到其他应用程序中。高效:Lua 的执…

(动态规划 leetcode377)组合求和IV

确立状态转移方程需要深入理解问题,合理定义子问题,找到边界条件(比如dp[0]),分析状态之间的转移关系(dp和dp之间的关系),并进行验证。 递归是自顶向下,而dp是自下而上 这里是i作为目标值&…

解决aspose将Excel转成PDF中文变成方框的乱码问题

原文网址:解决aspose将Excel转成PDF中文变成方框的乱码问题_IT利刃出鞘的博客-CSDN博客 简介 本文介绍如何解决aspose将Excel转成PDF中文变成方框的乱码问题。 问题描述 用aspose将word、excel等转成PDF后,英文展示正常,但中文全部变成了…

Netty 核心原理与高并发场景实践

在当今的网络编程领域,随着互联网应用的不断发展,对高并发、高性能网络通信的需求日益增长。Netty 作为一款基于 Java 的异步事件驱动的网络应用框架,凭借其卓越的性能和丰富的功能,成为了实现高并发网络应用的首选工具。无论是在…

问题大集04-浏览器阻止从 本地 发起的跨域请求,因为服务器的响应头 Access-Control-Allow-Origin 设置为通配符 *

1、问题 localhost/:1 Access to XMLHttpRequest at xxx(请求) from origin http://localhost:xxx(本地) has been blocked by CORS policy: The value of the Access-Control-Allow-Origin header in the response must not be t…

判断192.168.1.0/24网络中,当前在线的ip有哪些

需求:判断192.168.1.0/24网络中,当前在线的ip有哪些,并编写脚本打印出来。 [rootopenEuler ~]# cat 1.sh #!/bin/bash for ip in $(seq 1 254); do ping -c 1 -W 1 "192.168.1.$ip" > /dev/null 2>&1 if [ $? …

vue-vite axios bug

axios-bug http proxy error Error: write ECONNABORTED 代码写法 一般baseURL不是单写前缀就可以了吗,为何要写死就不会出现以上错误,求解。

【Spring】_SpringBoot配置文件

目录 1.Spring Boot配置文件 1.1 Spring Boot 的配置文件类型及命名 1.2 properties和yml的优先级 2. properties配置文件 1.1 properties语法格式 1.2 自定义配置及配置文件的读取 1.3 properties的缺点 3. yml配置文件 3.1 yml语法格式 3.2 自定义配置及配置文件的…

实操给触摸一体机接入大模型语音交互

本文以CSK6 大模型开发板串口触摸屏为例,实操讲解触摸一体机怎样快速增加大模型语音交互功能,使用户能够通过语音在一体机上查询信息、获取智能回答及实现更多互动功能等。 在本文方案中通过CSK6大模型语音开发板采集用户语音,将语音数据传输…