LLM大模型:deepseek sparse attention是个啥?

news/2025/10/3 16:14:43/文章来源:https://www.cnblogs.com/theseventhson/p/19124262
1、近期,deepseek-3.2-EXP发布,价格大幅下降,如下:

      image

   价格大幅下降,这是谁给的底气了?必定是成本大幅下降呗,否则不得亏死?那么问题又来了:成本又是怎么大幅下降的了?

   2、时至今日,尽管被各种吐槽(其中不乏yan lecun、feifeili等top级学术大佬),但商用的主流LLM架构还是transformer,核心原因就是attention机制:能非常好地提取每个token的语义信息!但这也是有代价的:time&space complex达到了O(n^2)。比如 当 seq =32K 时,QK^T 矩阵大小为 32K × 32K = 10 亿元素 , 计算和显存直接爆炸,这也是LLM成本高的核心原因之一!怎么既能很好地提取语义信息,又能大幅降低时间和空间复杂度了?这个问题从2019年开始就有各路大佬开始研究了。近1年内,主流的降成本方法有:

  • native sparse attention,也是deepseek家的,详见:https://www.cnblogs.com/theseventhson/p/18738724
  • gated dalta rule,qwen3-next-80B采用的方案,详见:https://www.cnblogs.com/theseventhson/p/19098032

  deepseek之前就使用了native sparse attention降本了,这次采用又是哪种新方案降本了?

  3、一段long context的长文本,其实不是每个token都很重要的,比如:

  • 语气助词“的”、“地”、“了”、“啊”、“吧”等,这些token没任何实质性的语义,计算attention有啥用了?
  • “今天天气不错啊,万里无云;我们来聊聊量子力学的现状和未来趋势吧”,这段seq中,很明显重点必定是量子力学的现状和未来趋势了,至于前面说的天气情况完全不重要,计算attention有啥用了

  所以降本的核心思路是:去掉语义不重要的token,只保留语义重要的token计算attention!思路确定了,接下里就要实现了,具体该怎么做了?换句话说,怎么找到语义重要的token了?怎么提出语义不重要的token了?

  4、要区分token的语义是否重要,就有个类似“先有蛋还是现有鸡”的问题:

  • 如果不遍历整个seq,怎么知道那些token重要、哪些不重要了?
  • 如果遍历整个seq,那和标准的全量attention又有啥区别了?time & space complex还怎么降低了?

  现在陷入了两难的境地啊!  怎么破局?

  记得以前做推荐算法,也面临类似的问题:user登录后需要从亿级别的item中快速找到最合适的几十个item给用户展示,耗时不能超过1~2秒!怎么从亿级别的item中在如此短的时间内找到合适的几十个item了? 于是乎诞生了推荐算法非常经典的方案流程:召回-> 粗排 -> 精排 -> 重排!

  • 每次计算,都是做漏斗筛选!
  • 召回的计算方案最简单,适合亿级别的大量计算,比如双塔模型;重排的计算最复杂,只适合万级别数量的item计算、排序!

  通过上述方式,先用简单的计算,从大量数据中初步筛选过滤,去掉杂质。再用复杂的计算精益求精,得到最终的排序!这里能不能复用这种思路了?

  5、 deepseek的3.2 exp的架构如下:

 

  image

   看着很复杂, 其实原理和思路同上面的推荐系统排序一样简单:先用简单的计算从所有token中筛选出重要的token,再用标准的attention计算token之间的weight!筛选重要token就是最核心的创新点了,deepseek官方的描述如下:

  image

   概括一下,I_{t,s}就是筛选token的指标,其计算方式如下:

  • 轻量投影:将主模型的 token 表示 x_tx_s 通过matrix multi 矩阵乘法投影到低维的索引空间,得到 q_{t,j}^Ik_s^I
  • 点积相似度:在每个索引头 j 内计算 q_{t,j}^Ik_s^I 的点积。这里的indexer header类似attention的multi-head,本质是在不同的语义空间提取特征信息
  • ReLU 稀疏化:用 ReLU 过滤掉所有非正相关的得分
  • 动态加权融合:用可学习的权重 w_{t,j}^I 融合所有索引头的信息,得到最终的标量得分 I_{t,s}
    这个 I_{t,s} 分数越高,就表示历史 token s 对当前查询 token t 越重要,在后续的完整注意力计算中就越有可能被选中

 

参考:

1、https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926062.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做公司网站需要制作内容济宁网站开发公司

有时候被ZABBIX监控的主机可能需要关机重启等维护操作,为了在此期间不触发告警,需要创建主机的维护任务,以免出现误告警 ZABBIX本身有这个API可供调用(不同版本细节略有不同,本次用的ZABBIX6.*),实现批量化建立主机的维护任务 无论哪种方式(IP列表,主机描述,或IP子网)创建维护…

如何更换网站图片wordpress 设置图片大小

11.2.0.3数据库环境,使用rman进行归档日志备份,想实现: (1)每天备份归档日志,备份完并不删除归档日志 (2)归档日志备份成功一次之后,下次再备份的时候rman就自动不会再次备份这个归档日志 这个需求可以通过 backup …

北京专业网站翻译影音字幕翻译速记速记快而高效公司网站的seo优化怎么做

2019独角兽企业重金招聘Python工程师标准>>> 快捷菜单 当用户点击界面上某个元素超过2秒后,将启动注册到该界面的快捷菜单。 步骤: 1.代码动态生成菜单 final static int CONTEXT_MENU_1 Menu.FIRST;final static int CONTEXT_MENU_2 Menu…

vs做网站怎样添加图片普通网站报价多少

用过小米miui的用户都知道,miui的“文件管理”里边有一个非常好用的功能-远程管理,如果手机与电脑都在同一个wifi网络下,即同一个局域网内,不用数据线直接就可以连接。打开手机的文件管理—远程管理—启动服务,将生成一…

一个公司可以做两个网站推广吗分类信息网站织梦模板

缩小包围圈游戏其实是一个不可能完成的任务,但是它会给游戏者带来无尽欢笑,使小组充满活力,让队员们能够自然地进行身体接触和配合,消除害羞和忸怩感,创造融洽的气氛,为后续工作的开展奠定良好基础。可以作…

详细介绍:从零到一:Docker Compose 轻松部署微服务实战!

详细介绍:从零到一:Docker Compose 轻松部署微服务实战!2025-10-03 15:59 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !importan…

软著申请全流程材料模板,2025年最新模板汇总! - 实践

软著申请全流程材料模板,2025年最新模板汇总! - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&q…

四川话ASR-微调-语音识别-Paraformer-Large - 教程

四川话ASR-微调-语音识别-Paraformer-Large - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

茂名专业网站建设公司亚马逊网站建设分析

推荐阅读 给软件行业带来了春天——揭秘Spring究竟是何方神圣(一) 给软件行业带来了春天——揭秘Spring究竟是何方神圣(二) 文章目录 推荐阅读关联查询子查询 关联查询 关联查询 从多张表中查询对应记录的信息,关联查…

手把手教你使用 Docker 部署 Nginx 教程

本文详细介绍了基于轩辕镜像的 Nginx 镜像拉取方法(含登录验证、免登录(推荐)、官方直连等方式),以及三种适合不同场景的 Docker 部署方案(快速部署用于测试、目录挂载用于实际项目、docker-compose 用于企业级场…

建站公司服务网页游戏开服表大全

TJpgDec—轻量级JPEG解码器 本文由乌合之众lym瞎编,欢迎转载blog.cnblogs.net/oloroso 下文中解码一词皆由decompression/decompress翻译而来。 TJpgDec是一个为小型嵌入式系统高度优化的创建JPEG图像的解码模块。它工作时占用的内存非常低,以便它可以集…

网站建设营销模板网站扁平化设计理念

目录 结论先说 实验 结论 实验机器的cpu配置 用EDGE拉九路​编辑 google拉五路就拉不出来了 资源使用情况 edge报错​编辑 结论先说 实验 用chrome先拉九路,再想用edge拉九路,发现拉五路后怎么也拉不出; 后面发现cpu爆满;切…

自己搭建一个网站需要多少钱?手机网站搭建教程

来源:AI前线作者:Ben Dickson译者:盖策划:凌敏本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。尽管人工智能研究人员正力图建立能在围棋、星际争霸到 Dota 等复杂游戏中击败人类…

CF2129 CF1951 VP 记录

非常好 hfu 开发的神秘打一场比赛改两场题,使我的国庆假期旋转. CF2129 Div1 B 逆序对考虑在较小的数处统计贡献,枚举序列里面每个数,一并枚举逆序对的另一个数. \(p_i\) 有贡献当且 \(i>j\),\(2n-p_i\) 有贡献…

PWN-BUUCTF-test_your_nc

BUUCTF-test_your_nc的WPpwn 题目题解 使用nc连接题目地址,输入ls查看目录。使用cat命令获取flag文件内容得到flag。总结 题目考察nc的使用方法本文来自博客园,作者:ffff5,转载请注明原文链接:https://www.cnblog…

做网站设计需要具备哪些重庆市工程建设服务中心

中国科学院自动化研究所智能交互团队在环境鲁棒性、轻量级建模、自适应能力以及端到端处理等几个方面进行持续攻关,在语音识别方面获新进展,相关成果将在全球语音学术会议INTERSPEECH2019发表。现有端到端语音识别系统难以有效利用外部文本语料中的语言学…

电商网站建设目标分析的方法淘宝客网站建设方案书

机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实 践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的 预测模型项目模板 不能只通过阅读来掌握…

Kafka Windows 安装启动与 YAML 配置全解析 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

昆明专业建站装修设计公司服务

参考链接 FFmpeg源代码简单分析:avcodec_close()_雷霄骅的博客-CSDN博客_avcodec_close avcodec_close() 该函数用于关闭编码器avcodec_close()函数的声明位于libavcodec\avcodec.h,如下所示。 ​该函数只有一个参数,就是需要关闭的编码器的…

使用rem布局的网站网站开发5人小组分工

. 单论品牌(主要以登山鞋及徙步鞋为主): 高级品牌:SCARPA、ASOLO、MONTRAIL、ZAMBERLAN、vasque、Lowa、La Sportiva 价格都较高,单价都在千元以上,品质一流,做工精细。 中档品牌:Tr…