突发,Deepseek新模型MODEL1曝光!

作为明星产品,必须得用放大镜看!

正值DeepSeek-R1 发布一周年之际,DeepSeek 在 GitHub 上悄悄更新了一波代码。

结果,眼尖的开发者在 DeepSeek 核心的推理优化库FlashMLA中,发现了一个此前从未公开过的神秘代号:“MODEL1”

目前,行业内普遍猜测,这极有可能就是DeepSeek即将发布的下一代旗舰模型。

而这次曝光的“MODEL1”,到底是什么来头?

首先,我们要知道它是怎么被发现的。

这次泄露的源头,来自DeepSeek的一个开源项目——FlashMLA

可能大家对FlashMLA不太熟悉,这里给大家简单介绍一下。

这是DeepSeek自研工具,专门为英伟达GPU做深度优化。

正是有了它,DeepSeek才能在模型架构层面减少内存占用,把GPU硬件的性能榨干到极致,从而实现了“低成本高性能”。

而在最近更新的代码中,开发者们发现在横跨114个文件中,有28处都明确提到了“MODEL1”这个新标识符。

在代码逻辑里,“MODEL1”是与“V32”(也就是DeepSeek-V3.2)并列存在的。

这意味着,它绝不是V3版本的简单修补,而是一个采用了全新架构的独立模型。

根据技术大神的深度分析,“MODEL1”的核心变化主要体现在“回归标准”和“极致效率”上。

以前的V3模型,为了追求极致性能,采用了一种比较特殊的576维设计,而“MODEL1”则切换回了512维的标准配置。

这样做的好处非常明显:它能更好地适配英伟达下一代Blackwell(SM100)芯片。

不仅如此,“MODEL1”还引入了更高级的“稀疏化”技术。

在代码中,出现了大量针对FP8(8位浮点数)数据格式的解码支持,以及键值(KV)缓存的优化。

它能在处理极长内容时,智能地跳过不重要的计算步骤,同时利用FP8格式把记忆内容进行高保真压缩。

这直接带来的结果就是:内存占用大幅降低,计算效率成倍提升。

这意味着,可以用更便宜的显卡,就能跑得动更强的模型。

那么,这个“MODEL1”到底是传说中的V4,还是推理模型R2?

目前行业内主要有两种看法。

一种观点认为,它是DeepSeek V4

按照 DeepSeek 的命名惯例,在 V3.2 之后的旗舰级架构跨越,逻辑上即为 V4。

并且此前就有外媒报道,DeepSeek计划在2月(春节前后)发布新一代旗舰模型V4,且内部测试显示其编程能力已经超越了市场上的顶级模型。

另一种观点则认为,它是DeepSeek R2

最近一个月,DeepSeek团队连续发布了两篇重磅技术论文,介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种模仿生物大脑的“AI记忆模块(Engram)”。

如果“MODEL1”整合了这些最新的黑科技,让AI拥有了类似人类的记忆机制,那它极有可能就是备受期待的“推理之王”R2。

不论是V4还是R2,至少有一点可以确定,DeepSeek的新模型快发布了!

结合目前模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。

这意味着,新模型的上线时间越来越近了。

那个曾在全球掀起波澜的“DeepSeek时刻”还会在今年重现吗?我们拭目以待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1202031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内容、媒体、时间:详解影响软文收录的三大变量及优化策略

在信息爆炸的时代,软文收录成为品牌传播效果的关键。许多企业常困惑于文章未被收录,其实这取决于内容质量、媒体选择与发布时机三大变量的系统配合。本文将解析这三大变量,并提供优化策略,助力软文传播效果最大化。 一、内容变量&…

dwmredir.dll文件丢失找不到问题 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

【毕业设计】基于springboot的面向大学生的职业兴趣评估与就业指导平台(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java计算机毕设之基于springboot的企业内部知识产权管理系统基于SpringBoot+Vue的企业内部知识产权管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【毕业设计】基于springboot的企业内部知识产权管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

RAG 检索模型如何学习:三种损失函数的机制解析

Agent 系统发展得这么快那么检索模型还重要吗?RAG 本身都已经衍生出 Agentic RAG和 Self-RAG(这些更复杂的变体了。 答案是肯定的,无论 Agent 方法在效率和推理上做了多少改进,底层还是离不开检索。检索模型越准,需要…

【课程设计/毕业设计】基于SpringBoot3+Vue3面向大学生的职业兴趣评估与就业指导平台基于springboot的面向大学生的职业兴趣评估与就业指导平台【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java计算机毕设之基于springboot的食品安全管理系统基于springboot+vue的食品安全管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

YOLO26改进 - C2PSA | C2PSA融合TSSA(Token Statistics Self-Attention)令牌统计自注意力,优化遮挡目标感知

# 前言 本文介绍了Token Statistics Self-Attention(TSSA)机制,并将其集成到YOLO26中。传统自注意力计算复杂度高,TSSA进行了范式转变,基于token统计特征实现高效注意力交互。它通过“算法展开”推导得出,以“最…

微信小程序开发公司哪家比较好?最新测评报告给你答案

在数字化转型成为必选题的今天,微信小程序已成为企业线上引流、服务客户、促成交易的关键工具。然而,面对市场上众多的小程序开发公司,许多企业主和项目负责人都会感到困惑:微信小程序开发公司哪家比较好? 选择时…

100dB 深度消回音 + AI 智能降噪!WX-0813 语音处理模组,重塑全场景音频通话体验

WX0813AI降噪回音消除模组在智能门禁、远程会议、车载通信等多元化音频场景中,回声干扰、环境噪音嘈杂、设备适配复杂等问题,往往成为制约产品体验的关键瓶颈。WX-0813 AI 降噪回音消除模组的横空出世,以 “超强声学处理 高集成设计 广泛适…

YOLO26改进 - SPPF模块 | SPPELAN 空间金字塔池化与增强局部注意力:替代SPPF增强多尺度上下文捕获,提升检测精度

前言 本文介绍了可编程梯度信息(PGI)和通用高效层聚合网络(GELAN),以及SPPELAN模块在YOLO26中的结合应用。针对深度网络数据传输中的信息丢失问题,提出PGI概念以提供完整输入信息计算目标函数,获得可靠梯度更新…

【毕业设计】基于springboot的食品安全管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

YOLO26改进 - SPPF模块 | 替代SPPF, Mona多认知视觉适配器:打破全参数微调的性能枷锁:即插即用的提点神器 | CVPR 2025

前言 本文介绍了新型视觉适配器微调方法Mona,并将其集成到YOLO26中。传统全参数微调成本高、存储负担重且有过拟合风险,现有PEFT方法性能落后。Mona仅调整5%以内的骨干网络参数,在多个视觉任务中超越全参数微调。其核心亮点包括参数效率高、…

2026全国学历提升机构TOP10盘点:选课攻略+避坑指南

2026全国学历提升机构TOP10盘点:选课攻略+避坑指南一、全国性头部机构:品牌与实力双保障 在学历提升的赛道上,全国性的大型机构凭借深厚的品牌底蕴、广泛的资源网络和成熟的教学体系,成为众多考生的首选。它们不仅…

微信小程序商城怎么开通?来自程序员的实用教程

大家好,我是专注小程序开发超过8年的老司机。这些年亲眼看着微信生态从萌芽到爆发,现在小程序日活已经突破5亿(数据来源:腾讯2023年财报),电商类小程序年均增长率超过60%。可以说,如果你还没把生意搬到小程序上…

Java毕设项目推荐-基于SpringBoot的在线食品安全信息平台系统基于springboot的食品安全管理系统【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

ffmpeg 二叉树代码测试及分析 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Java毕设选题推荐:基于springboot的企业智慧知识产权资产运营平台企业内部知识产权管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026执业药师考试培训前十机构测评:通关攻略与避坑指南

2026执业药师考试培训前十机构测评:通关攻略与避坑指南一、引言:为什么选择专业机构备考执业药师? 在医药行业中,执业药师资格证的重要性不言而喻,它就像是一块 “黄金敲门砖”,为从业者开启了更广阔的职业发展大…