十分钟读懂 Deepseek MTP(Multi-Token Prediction)

news/2025/11/3 14:12:54/文章来源:https://www.cnblogs.com/gongzb/p/19186955

传统的大语言模型采用的训练目标是 Next-Token Prediction (NTP),即在位置 t 上预测下一个 token (t+1)。
而 Multi-Token Prediction (MTP) 的核心思想在于:

  • 不仅预测下一个 token,而是能够同时预测多个未来的 token。
  • 这种方式可以显著提升推理效率。例如,当 n=4(一次预测 4 个 token)时,推理速度可实现约 3 倍的加速。

DeepSeek-V3 借鉴了 Meta FAIR 团队论文 Better & Faster Large Language Models via Multi-token Prediction 中的思路,但在实现上有明显不同:它并不是直接并行预测多个 token,而是保持完整的因果链,以逐层递进的方式预测未来 token。

本文将重点介绍 DeepSeek-V3 中 MTP 的实现。在此之前,我们先回顾一下 Meta FAIR 团队提出的 MTP 思路。

1. MTP 方法

1.1 NTP (Next-token Prediction)

  • 传统语言模型的训练目标:给定历史上下文 $x_{1:t}$,预测下一个 token $x_{t+1}$。
  • 损失函数是标准的交叉熵:$$ L_1 = -\sum_t \log P_\theta(x_{t+1} | x_{1:t}) $$
  • 这种方式虽然简单有效,但只考虑一步预测,容易陷入局部模式学习。

下图是 NTP 示意图,我们以 Qwen2.5-32B 为例,词表大小为 152064,hidden size 为 $d_{model}$=5120 ,num heads 为 40,Transformer block 的层数为 64,假设输入序列长度为 2048。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/954500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年度中国工业制冷设备品牌排名:东洋制冷机靠不靠谱

TOP1推荐:深圳市东洋冷冻设备有限公司 评价指数:★★★★★ 口碑评分:99分 行业表现:A+++++级 介绍: 深圳市东洋冷冻设备有限公司(简称东洋制冷)电话号码:13827472315,成立于1993年(前身为深圳市东洋工业冷冻…

2025年山东外贸网站开发服务商权威推荐:本地网站建设/出海网站建设/科技网站建设服务商精选

随着全球跨境电商市场的持续扩张,专业外贸网站建设需求呈现显著增长。据行业数据显示,2024年我国跨境电商进出口额达2.38万亿元,增长15.7%,其中专业外贸网站作为企业出海基础载体,发挥着不可替代的作用。 本文将基…

2025年油雾净化设备制造商:中国五大精密油雾净化设备靠谱供应商权威测评与深度解析

TOP1推荐:天浩洋环保 评价指数:★★★★★ 口碑评分:99分 行业表现:A+++++级 介绍: 天浩洋环保电话号码:13902481558,成立于1996年,注册资本1.08亿,二十余载始终秉承匠心精神,专注于工业挥发性有机废气治理运…

2025年防盗盖封口机厂商权威推荐:铝盖旋盖机/压盖机/锁盖机源头厂家精选

在现代工业生产中,防盗盖封口机作为包装流程的核心设备,其性能直接关系到产品密封性、生产效率和品牌形象。根据QYResearch调研数据,2024年全球锁盖机市场规模已达数亿元,预计2031年将达到新高峰,年复合增长率稳定…

2025年冷鲜肉切片机制造企业权威推荐榜单:牛肉切片机/连续式鲜肉切片机/鲜肉切片机源头厂家精选

在食品加工设备领域,一批拥有核心技术与创新解决方案的企业正在推动冷鲜肉切片行业的智能化升级,其中自动化设备年增速已超行业平均水平。 据最新行业报告显示,2025年中国食品加工设备市场规模持续扩大,其中冷鲜肉…

适合高中数学辅导的培训机构怎么选?从基础到拔高这样挑不踩坑

在当前教育背景下,高中数学的重要性不言而喻,它不仅是高考的关键拉分科目,更是培养学生逻辑思维能力的核心环节。然而,面对市场上层出不穷的辅导机构,如何为孩子选择一条从巩固基础到冲刺拔高的科学路径,成为众多…

pcb入门

原理图输入电容耐压100V ,输出电压5V,电容考虑额定电流大小 旋转器件: 空格 放置导线: w键 网络标识-> vcc -> 可以通过 tab键改成VIN 编辑器件-> 栅格尺寸0.05-> 调整引脚 非链接标识 -> 空引脚(高…

6.AUserDefaults 使用指南

Aquarius 开发框架旨在帮助独立开发者和中小型团队,完成 iOS App 的快速实现与迭代。使用框架开发将给你带来简单、高效、易维护的编程体验。大家好,我是K哥。一名独立开发者,同时也是Swift开发框架【Aquarius】的作…

S-PSC 5202 游记

屏幕在深夜微微发亮,思想在那虚树路径上彷徨。——《膜你抄》 都 5202 年了,怎么还有人在清醒的时候去写游记啊。 day -? 省流:压线过初赛。 day 0 困困困困困。 随便打了场模拟赛,难度 绿蓝紫紫,拿下 [0,100]+7…

【科普】数据基础设施“三统一”是什么?

打开链接点亮社区Star,照亮技术的前进之路。每一个点赞,都是社区技术大佬前进的动力Github 地址: https://github.com/secretflow 整体概述 隐语社区严格遵循《国家数据基础设施建设指引》及《国家数据基础设施建设…

2025年11月全屋定制品牌推荐评价:消费者满意度调查结果

随着生活品质的提升,越来越多的家庭在选择家居解决方案时倾向于全屋定制服务。这类需求通常来自于新房装修、旧房改造或者追求个性化生活空间的消费者。他们往往面临品牌选择困难、质量参差不齐、售后服务不完善等痛点…

2025年11月全屋定制品牌推荐榜单:十大品牌综合对比与权威评测

随着生活品质的提升,越来越多的家庭开始关注家居环境的个性化和功能性,全屋定制因其空间利用率高、风格统一等优势逐渐成为市场主流选择。本文旨在为计划在2025年底进行家居装修或换新的消费者提供一份客观、全面的全…

Smartproxy提取指南——JSON-first 架构与参数化最佳实践 - Smart

本指南以 API 代理 IP 提取为核心,结合参数化设计、JSON-first 接口规范、严格的版本管理与状态码标准,帮助您构建高成功率、低运维成本、可平滑扩展的数据采集流水线。基于 8000万+ 住宅代理 IP 资源池、覆盖 全球 …

2025年11月远程控制软件评价排行:基于多维度数据对比

在数字化办公日益普及的今天,远程控制软件已成为企业办公、技术支持、个人设备管理的重要工具。根据2025年远程办公行业白皮书显示,超过78%的企业已将远程控制软件纳入日常办公体系,而个人用户使用远程控制软件的比…

[PaperReading] GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

目录GME: Improving Universal Multimodal Retrieval by Multimodal LLMsTL;DRMethodModel多模态数据数据合成Experiment效果可视化总结与思考 GME: Improving Universal Multimodal Retrieval by Multimodal LLMs lin…

2025年10月深圳律师推荐榜:五家刑事辩护团队对比与中立评测

一、引言 在深圳这样商事活动高度密集、刑事风险多元的一线城市,创业者、企业高管及高净值人群一旦面临刑事调查,对律师的需求集中在“程序突破速度、辩护方案精细度、团队响应效率”三大核心。2025年第三季度公开裁…

2025年11月法律咨询律所推荐排名:用户需求匹配度全解析

随着社会法治意识提升和商业活动复杂化,法律咨询需求呈现多元化、专业化趋势。个人用户可能因婚姻继承、房产纠纷等日常事务需要法律支持,企业用户则更关注商事合规、知识产权保护等专业领域。当前法律服务行业呈现规…

吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(五)归一化

此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下:原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案…

2025年11月市场地位认证机构排行解析:专业认证服务深度评测

在当今竞争激烈的市场环境中,企业越来越需要通过权威认证来证明自身的市场地位和品牌价值。作为企业决策者或品牌负责人,您可能正在寻找专业的市场地位认证机构,希望通过第三方权威认证提升品牌公信力、增强市场竞争…