Qwen3大模型训练全流程:从预训练到模型蒸馏技术详解

文章详细介绍了Qwen3大模型的完整训练流程,包括三阶段预训练(通用知识、推理能力、长上下文)、思维链冷启动、推理强化学习、思维模式融合和通用强化学习,最后通过模型蒸馏技术优化性能。文章还展示了关键技术参数和训练效果,强调了蒸馏方法在数学与编程任务上的显著优势及高效性。


预训练

Qwen3分别针对通用知识、推理能力和长上下文能力三步预训练;

  1. 通用知识训练:4096序列长度,30T总token,119种语言和方言;该阶段主要聚焦于语言结构、语法、常识与通用世界知识的学习,为后续阶段提供强大的多语言理解与生成能力支撑。
  2. 推理能力训练:4096序列长度,5T总token,学习率衰减加快,提高STEM、编码、推理和合成数据的比例;
  3. 上下文长度增加:32,768序列长度,10B总token,75%的文本长度在16,384至32,768 token之间,25%的文本长度在4,096至16,384 token之间,ABF技术,YARN和双块注意力(DCA);

后训练

思维链冷启动

目标:精心挑选数据集,用于推理能力的初始冷启动训练,为了在模型中灌输基础推理模式,而不过度强调推理性能,确保在后续强化学习(RL)阶段具备更大的灵活性和提升空间。所以数据集不用太多,但需要多样性,防止过拟合,让模型保持一定的“未完成性”。

数据集特点:涵盖广泛类别的综合数据集,包括数学、代码、逻辑推理和通用STEM问题。数据集中的每个问题都配有经过验证的参考解答或基于代码的测试用例。

数据集构建:

  1. 查询过滤:使用大模型移除不易验证的Query,包括包含多个子问题或请求通用文本生成的Query,移除无需使用思维链的Query。为每个Query标注领域标签,确保领域数据均衡;

  2. 相应过滤:使用推理大模型为查询过滤后的Query生成N个候选响应,对于无法生成正确回答的进行人工过滤。过滤标准:

  3. 最终答案错误;

  4. 包含大量重复内容;

  5. 明显存在缺乏充分推理的猜测;

  6. 总结内容与思维过程不一致;

  7. 不恰当的语言混用和风格转换;

  8. 与验证集内容高度相似;

推理强化学习

数据要求:(3,995个数据对)

  1. 未在冷启动阶段用过;
  2. 对冷启动模型是可学习;
  3. 具有一定的难度;
  4. 覆盖领域广泛;

措施:

  1. 采用GRPO算法更新模型;
  2. 大批量+多rollout并行探索策略空间;
  3. 探索与利用平衡的动态熵控制;
  4. 离线策略训练提高样本利用效率;

思维模式融合

目的:将“非思维”能力集成到先前训练的“思维”模型中,使得能够管理和控制推理行为。

该模式下涌现出基于停止思考时刻积累的推理内容继续生成最终响应的能力。

措施:

  1. 对推理强化学习模型进行SFT微调;
  2. “思维”数据是通过第二阶段模型对第一阶段的查询进行拒绝采样来生成;
  3. “非思维”数据经过精心整理,覆盖编码、数学、指令遵循、多语言任务、创意写作、问答和角色扮演等多样化任务。
  4. 在系统消息中引入/think和/no_think标记来确定回答模式;确保模型输入格式一致,对于非思维模式样本,助手响应中会保留空的思考块。

通用强化学习

目的:提升模型在多样化场景中的能力和稳定性;

措施:建立一个涵盖20多种任务的奖励系统;

评估维度:

  1. 指令遵循:确保模型准确理解并遵循用户的指令,包括与内容、格式、长度及结构化输出,生成符合用户期望的响应。
  2. 格式遵循:遵循特定的格式规范,如对/think和/no_think标记做出恰当响应,并在最终输出中始终使用指定标记(如和)来分隔思考内容与回答内容。
  3. 偏好对齐:对于开放式查询,偏好对齐侧重于提升模型的实用性、吸引力和风格适配性,最终提供更自然且令人满意的用户体验。
  4. Agent能力:这涉及训练模型通过指定接口正确调用工具。在强化学习展开过程中,允许模型与真实环境执行反馈进行完整的多轮交互循环,从而提升其在长程决策任务中的性能和稳定性。
  5. 专业场景能力:在更专业的场景中,我们针对特定上下文设计任务。例如,在RAG任务中,我们引入奖励信号引导模型生成准确且符合上下文的响应,从而降低幻觉风险。

奖励类型:

  1. 基于规则的奖励:基于规则的奖励已在推理强化学习阶段广泛使用,且对指令遵循和格式遵守等通用任务也很有用。精心设计的基于规则的奖励能够高精度评估模型输出的正确性,避免奖励破解等问题。
  2. 带参考回答的基于模型的奖励:在这种方法中,我们使用大模型A为每个查询提供一个参考回答,并让大模型A根据该参考回答对当前训练模型的响应进行评分。这种方法能够更灵活地处理多样化任务,无需严格的格式要求,避免了纯基于规则的奖励可能产生的假阴性问题。

模型蒸馏

离线策略蒸馏:学生模型学习老师模型对于两种模式下的响应输出,从而学会基础推理模式和模式切换能力;

在线策略蒸馏:最小化两种回答模式下学生与老师模型输出logits的KL散度。

其它

效果:

  1. 数学与编程的测试集上反应了蒸馏方法在性能上显著优于强化学习,并且它所需的 GPU 计算时间仅为强化学习的约十分之一。
  2. 对于知识类、STEM、数学和编程任务 ,思考模式融合与通用强化学习并未带来显著的性能提升;

数据合成:

  1. 利用 Qwen2.5-VL 进行文本识别;
  2. 使用垂直领域模型合成领域数据;

关键参数与技术;

  1. Qwen3 模型使用(GQA)、SwiGLU、(RoPE)和 RMSNorm 等技术;
  2. Qwen3 引入 QK-Norm 以确保稳定训练。
  3. Qwen3 MoE 更细粒度的专家分割;
  4. Qwen3 MoE 采用全局批处理负载均衡损失鼓励专家专业化;
  5. Qwen3 MoE 共有 128 个专家,每个 token 会激活 8 个专家,没有共享专家;

三阶段预训练->思维链冷启动->推理强化学习->思维模式融合->通用强化学习->使用大模型蒸馏预训练好的小模型

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1026311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI邪修·破壁行动】神经网络基础—核心数据结构—张量

1. 从标量到张量 问AI: 什么是张量? AI答: 0维是标量,1维是向量,2维是矩阵,3维及以上就是张量。 在深度学习中,张量不仅是多维数据容器,更重要的是它支持自动微分和GPU加速计算&…

MATLAB分步傅里叶法仿真:光纤激光器锁模脉冲产生及可饱和吸收镜导致的脉冲漂移问题的解决

MATLAB分步傅里叶法仿真光纤激光器锁模脉冲产生 解决了可饱和吸收镜导致的脉冲漂移问题锁模光纤激光器的数值仿真就像在钢丝绳上跳舞——既要准确描述非线性效应,又要处理色散带来的时空畸变。去年实验室里那台掺镱光纤激光器总出现脉冲位置漂移,后来发现…

Dify+PDF加密权限控制(仅限高级用户掌握的5个关键技术点)

第一章:加密 PDF 的 Dify 权限验证 在现代文档安全体系中,对敏感 PDF 文件进行加密并结合权限控制系统已成为企业级应用的标准实践。Dify 作为一款支持可扩展插件架构的低代码平台,能够通过自定义节点实现对加密 PDF 文件的访问控制与权限验证…

comsol光学仿真 光子晶体光纤 论文复现(图是仿的一个spr传感器和一个三芯分束器)图左原文

comsol光学仿真 光子晶体光纤 论文复现(图是仿的一个spr传感器和一个三芯分束器)图左原文,图右仿的结果 基于SPR的光纤传感器 光子晶体光纤偏振分束器 光子晶体光纤仿真 模式分析 计算等效折射率,限制损耗,模式色散&am…

7个常见错误避免,确保YashanDB实施的成功率

在当前数据驱动的业务环境中,数据库系统作为核心信息基础设施,其性能瓶颈、数据一致性保障及高可用性实现等挑战日益突显。YashanDB作为一款支持多种部署形态的先进数据库系统,集成了行列混合存储、分布式和共享集群架构等多项技术优势&#…

云主机如何新增账号

云主机如何新增账号1.添加用户2.设置密码3.如果需要sudo权限执行4.新建账号范例1.添加用户 useradd -m -s /bin/bash username2.设置密码 echo "username:password" | sudo chpasswd3.如果需要sudo权限执行 echo "username ALL(ALL) NOPASSWD:ALL" >…

ChatID 批量同步:详细解析如何通过“获取客户群列表”API 接口全量同步群聊 ID

企业微信的消息发送接口(如群发消息)要求使用群聊的唯一标识符 ChatID。然而,ChatID 不会自动同步到我们的业务系统,需要我们主动通过 API 定期拉取并维护。本帖将详细解析这一同步机制。 1. “获取客户群列表” API 的作用与限制…

揭秘Docker容器化LangGraph多Agent通信:5个必须掌握的核心技巧

第一章:揭秘Docker容器化LangGraph多Agent通信的核心价值在现代分布式AI系统中,LangGraph通过图结构建模Agent之间的复杂交互逻辑,而Docker容器化技术为多Agent系统的部署、隔离与扩展提供了坚实基础。将二者结合,不仅能实现Agent…

乐迪信息:智慧煤矿解决方案:AI摄像机智能预警系统

AI摄像机智能预警系统为煤矿安全生产提供了全新的技术路径。该系统通过在煤矿关键区域部署智能摄像设备,结合AI算法实现对人员行为、设备状态及环境风险的实时识别与预警,有效提升了煤矿安全管理水平。一:系统架构与技术原理AI摄像机智能预警…

专项智能练习(新课程改革的课程结构)

1.在下列课程中,不属于高中阶段综合实践活动的课程是(D )。 A.研究性学习 B.社区服务 C.社会实践 D.地区特色文化 解析本题考查综合实践活动课。从小学至高中设置综合实践活动并作为必修课程。强调学生通过实践,增强探究和创新意识…

成为AI产品经理:程序员不可错过的AI时代红利

文章指出ChatGPT的爆火引发AI发展热潮,产品经理需了解AI底层技术才能设计出合格产品。AI产品经理需要知道模型搭建、应用技术并与业务场景结合。文章推出AI产品经理训练营,适合有一定产品经验想转行AI产品经理的人,每周日晚上上课&#xff0c…

【AI邪修·破壁行动】理解领域驱动设计DDD

关于【AI邪修破壁行动】 使用AI打破各种知识壁垒,让技术回归通俗。人生有限,别搞弯弯绕,享受简洁之美! 今天我们干翻领域驱动设计。 原文:领域驱动设计(DDD) 1. AI翻译打破语言壁垒 以下是您…

为什么你的服务总崩溃?:Docker MCP 网关负载均衡未正确配置的3大隐患

第一章:为什么你的服务总崩溃?——Docker MCP 网关负载均衡配置之殇在微服务架构中,Docker MCP(Microservice Communication Proxy)网关承担着请求分发与流量控制的核心职责。然而,许多开发者发现&#xff…

科研快报 |路侧感知新突破:用“多边形”注意力,让摄像头看得更远更准

Prism Path 科 研 快 报 CS跨学科顶尖期刊论文资讯 -NO.2025014- MonoPAM:基于多边形注意力机制的路侧单目3D物体检测 MonoPAM: Roadside monocular 3D object detection with polygonal attention mechanism 期刊:Knowledge-Based Systems &…

构建高可靠软件系统:性能与安全测试的融合与实践

测试领域的双翼演变在数字化转型浪潮中,软件系统的复杂性呈指数级增长。性能测试与安全测试已从独立的技术领域演变为支撑业务连续性的核心支柱。2025年的技术环境下,随着云原生架构、微服务与人工智能技术的普及,性能与安全问题往往同根同源…

永磁同步电机三闭环控制Simulink仿真 电流内环 转速 位置外环 参数已经调好 原理与双闭...

永磁同步电机三闭环控制Simulink仿真 电流内环 转速 位置外环 参数已经调好 原理与双闭环类似 有资料,仿真最近在调永磁同步电机控制方案,发现三闭环控制在需要高精度定位的场景特别实用。今天就拿手头调好的Simulink模型拆解下实现套路,保证…

抛弃脚本自动化:我们如何用 LangGraph 构建会“自我反思”的接口测试 Agent?

导读:传统的 API 自动化测试正面临“脚本维护难、覆盖率低、工具割裂”的困境。佳杰云星技术团队基于 LangGraph 框架,构建了一套能够自动生成代码、沙箱执行并自我修正的 Agentic AI 测试系统。本系列文章将从架构选型、核心实现到效能评估,…

LobeChat会话管理功能有多强?多话题并行处理不混乱

LobeChat如何实现多话题并行处理不混乱? 在今天这个信息过载、任务并发的数字工作环境中,我们早已不再满足于让AI助手“回答一个问题”就结束对话。无论是开发者同时调试代码和撰写文档,还是产品经理一边规划需求、一边与客服团队同步进展&am…

pydash原型链污染

漏洞简介 Pydash 是著名的 JavaScript 库 Lodash 的 Python 移植版。它提供了一系列工具函数来处理数据。 它的核心漏洞点在于 pydash.set_(a,b,c)该函数允许用户通过字符串路径(Dot Notation,如A.B.C)来设置嵌套对…

自定义MyBatis拦截器,实现SQL字段注入

自定义MyBatis拦截器,实现SQL字段注入自定义MyBatis拦截器,实现SQL字段注入若依(3.8.5版本)框架中自定义MyBatis拦截器,实现id、创建人、创建时间、修改人、修改时间自动注入保存到数据库自定义MyBatis拦截器,实现SQL字…