Qwen3技术报告

news/2025/10/9 17:56:44/文章来源:https://www.cnblogs.com/freedom-w/p/19131656

原文: https://mp.weixin.qq.com/s/3RXdXT8hzlsMp_Uk_BvpfQ

全文摘要

本文介绍了最新的 Qwen 模型家族——Qwen3,它是一个大型语言模型系列,旨在提高性能、效率和多语言能力。该系列包括密集架构和混合专家(MoE)架构的模型,参数规模从 0.6 到 235 亿不等。Qwen3 的创新之处在于将思考模式(用于复杂、多步推理)和非思考模式(用于快速、基于上下文的响应)整合到一个统一框架中,消除了切换不同模型的需求,并可以根据用户查询或聊天模板动态切换模式。此外,Qwen3 引入了思考预算机制,允许在推断过程中适应性地分配计算资源,从而根据任务复杂度平衡延迟和性能。通过利用旗舰模型的知识,作者显著减少了构建小规模模型所需的计算资源,同时确保它们具有高度竞争力的表现。实验结果表明,Qwen3 在各种基准测试中实现了最先进的结果,包括代码生成、数学推理、代理任务等任务,在与更大规模的 MoE 模型和专有模型的竞争中表现出色。与前一代 Qwen2.5 相比,Qwen3 扩展了对 119 种语言和方言的支持,提高了跨语言理解和生成的能力,增强了全球可访问性。为了促进可重复性和社区驱动的研究和发展,所有 Qwen3 模型都以 Apache 2.0 许可证的形式公开可用。

论文地址:https://arxiv.org/abs/2505.09388

github: https://github.com/QwenLM/Qwen3

huggingface: https://huggingface.co/Qwen

论文方法

方法描述

本文提出了一种名为“Qwen3”的新型预训练模型,包括6个密集模型和2个MoE模型。这些模型使用了Grouped Query Attention、SwiGLU、Rotary Positional Embeddings以及RMSNorm等技术,并引入了QK-Norm来确保稳定的训练过程。此外,该模型采用了与Qwen2.5相似的基本架构,但在MoE模型中进行了创新,如实现细粒度专家分割和排除共享专家等。

Qwen3模型还利用了Qwen的分词器来进行文本识别和处理。在数据集方面,该模型收集了大量的高质量数据,覆盖了多种语言和领域,以提高模型的语言能力和跨语言能力。同时,通过多维度的数据标注系统,优化了数据混合的效果。

在预训练阶段,Qwen3模型采用了三个阶段的训练方式:第一阶段是通用阶段(S1),在此阶段中,所有模型都基于超过30万亿个标记的语料库进行训练;第二阶段是推理阶段(S2),在此阶段中,增加了STEM、编码、推理和合成数据的比例,并使用更高的质量标记进行进一步的训练;第三阶段是长序列阶段,在此阶段中,使用数百亿个标记的高质量长序列语料库扩展模型的上下文长度。最后,该模型根据前两个阶段的结果预测出每个模型的最佳学习率和批量大小策略。

方法改进

相比于之前的模型,Qwen3模型在多个方面进行了改进:

  1. 扩大了训练数据的规模和多样性,提高了模型的语言能力和跨语言能力。
  2. 引入了新的技术和算法,如QK-Norm、YARN和Dual Chunk Attention,提高了模型的性能。
  3. 实现了细粒度专家分割和排除共享专家等创新设计,提高了模型的效率和稳定性。
  4. 利用了多维度的数据标注系统,优化了数据混合的效果。

解决的问题

Qwen3模型解决了以下问题:

  1. 提高了模型的语言能力和跨语言能力,使其能够更好地应对多样化的自然语言处理任务。
  2. 改进了模型的性能,使其具有更好的推理能力和稳定性。
  3. 提供了一个有效的数据混合方案,使模型能够更有效地利用大规模数据集。

论文实验

本文主要介绍了针对自然语言处理领域的大型预训练模型的系列实验,并对其进行了全面的评估和比较。作者使用了多种指标来衡量模型在不同任务上的表现,包括通用知识问答、数学计算、科学知识、编程等多领域。具体实验内容如下:

  1. 性能评估:对大型预训练模型(如Qwen3系列)与同类开源模型(如DeepSeek-V3 Base、Gemma-3、Llama-4-Maverick等)进行了性能评估,比较它们在多个基准测试数据集上的表现。结果显示,Qwen3系列模型在大多数任务上都表现出色,特别是在科学知识、编程等领域具有显著优势。
  2. 模型大小评估:将Qwen3系列模型与其他领先的开源模型(如Llama-4-Maverick、Qwen2.5-72B-Base等)进行了模型大小的比较。结果表明,Qwen3系列模型不仅在性能上有优势,而且相对于其他模型而言,其参数量和激活参数量都更少,具有更高的效率。
  3. 跨语言能力评估:通过MGLUE多语言评估数据集,对Qwen3系列模型的跨语言能力进行了评估。结果显示,Qwen3系列模型在不同语言的任务上都有较好的表现,证明了其在多语言环境下的应用潜力。

综上所述,本文通过对Qwen3系列模型进行全面的评估和比较,展示了其在各个任务和指标上的优越性能,为自然语言处理领域的研究提供了有力的支持。

table_4

table_6

table_8

论文总结

文章优点

该论文介绍了一种名为Qwen3的预训练模型,其特点是具有思考模式和非思考模式,并且可以根据任务需要动态管理使用的标记数量。该模型在包含36万亿个标记的大型数据集上进行了预训练,能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在标准基准测试中表现出色,包括代码生成、数学推理、代理等任务。 此外,该论文还介绍了作者团队的研究计划,包括提高模型架构和训练方法的有效压缩、扩展到非常长的上下文等方面的工作。这些工作将有助于构建更强大的代理系统,以应对复杂任务的需求。

方法创新点

该论文的主要贡献是提出了一种新的预训练模型Qwen3,它具有思考模式和非思考模式,可以动态管理使用的标记数量。这种设计使得该模型能够在处理不同类型的自然语言任务时更加灵活和高效。此外,该论文还提到了一些研究计划,如有效压缩、扩展到非常长的上下文等方面的工作,这些工作有望进一步提高模型的性能和应用范围。

未来展望

该论文的未来发展重点是在以下几个方面:首先,继续扩大数据集的质量和多样性,以进一步提高模型的性能;其次,改进模型架构和训练方法,以实现有效的压缩和扩展到非常长的上下文;最后,增加计算资源,特别是在强化学习方面的投入,以便构建更加强大的代理系统,以应对复杂任务的需求。这些努力将有助于推动自然语言处理技术的发展和应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/933745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

赋能智慧监管:国标GB28181平台EasyGBS在明厨亮灶场景中的深度应用

“明厨亮灶”工程是保障食品安全、提振公众消费信心的关键举措。然而,传统的视频监控系统面临设备品牌杂乱、监管平台不统一、公众查看不便等挑战。本文将深入探讨如何利用国标GB28181协议与EasyGBS视频平台,构建一个…

CFD与FDM, FEM, FVM的关系?

CFD与FDM, FEM, FVM的关系?有限差分法、有限元法和有限体积法与CFD的关系可以概括为:CFD是学科领域,而这三种方法是解决CFD问题的“数学工具”或“数值离散技术”。 我们可以用一个比喻来理解:CFD(计算流体力学)…

央国企高管团队为何频繁流失?揭示薪酬结构失衡的深层原因与优化策略

在当前央国企改革与数智化转型的浪潮中,核心人才的稳定与激励已成为企业治理的重中之重——尽管多数央国企已经构建了层次分明、规范透明的薪酬体系并严格参照国资委相关政策进行总额管控,但在实际运行过程中,核心技…

在Ubuntu 22.04系统上安装libimobiledevice的步骤

更新系统包列表 打开终端并执行以下命令以更新您的Ubuntu系统包列表: sudo apt update 这将确保您能够访问最新版本的软件包。 安装依赖项 libimobiledevice依赖于一些库和工具。使用下面命令来安装这些必要组件: su…

LTV-817X-C晶体管输出光电耦合器 Liteon光宝 电子元器件深度解析 - 详解

LTV-817X-C晶体管输出光电耦合器 Liteon光宝 电子元器件深度解析 - 详解2025-10-09 17:44 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: au…

Redis sentinal模式,master挂了的 选举过程

目录🛑 Redis Sentinel 集群故障转移和选举流程1. 故障判定与仲裁 (Quorum)2. 选举领头 Sentinel(Leader Sentinel)3. 执行新的 Master 选举(Slave 选举)4. 重新配置其余节点为什么需要选举 Leader Sentinel1. 避…

破解安防整合难题:详解国标GB28181EasyGBS如何实现零插件Web直播

在数字化、信息化快速发展的今天,视频监控已经成为各行各业不可或缺的一部分。从个人用户到大型企业,再到政府部门,视频监控的需求无处不在。在众多视频监控平台中,国标GB28181网页直播平台EasyGBS凭借其独特的优势…

软件技术基础第一次

这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/25rjjc/这个作业的目标 1.学会写一篇随笔2.进行自我介绍3.自我评估4.表达对未来课程的期待姓名-学号 苏子建-2023329301052一、自我介绍大家好,我是浙江理…

Vue ref 企业级实用教程:carouselRef 详解

Vue ref 企业级实用教程:carouselRef 详解# Vue ref 企业级实用教程:carouselRef 详解 ## 1. ref="carouselRef" 详细说明 ### 1.1 基本概念 `ref="carouselRef"` 是 Vue 中用于获取组件实例引用…

鉴冰AI FENCE:企业级LLM应用安全防护网关2025技术解析与实战

鉴冰AI FENCE:企业级LLM应用安全防护网关2025技术解析与实战随着生成式AI技术在金融、政务、电商等核心领域的快速普及,AI违规输出内容已成为企业面临的重大安全挑战。2025年,全球每日产生2.3亿条AI生成内容,其中2…

leetCod热题100-73、买股票的最佳时期

leetCod热题100-73、买股票的最佳时期给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算…

有限体积法和有限差分法、有限元法的区别。

有限体积法和有限差分法、有限元法的区别。有限差分法、有限元法和有限体积法是三种最常用的数值离散方法,它们的思想、应用场景和优缺点各有不同。 下面我将用一个相对全面且易于理解的方式来解释它们的区别。 核心思…

用户行为素材可视化

用户行为素材可视化pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "C…

“十五五”战略下,央国企人事系统如何破局增效?T集团数字化转型案例分享

摘要:十五五” 战略纵深推进之际,央国企作为国民经济的 “压舱石”,正处在政策、产业、技术与人才多重变革交织的关键节点。《2024 国资国企数智化转型白皮书》的数据显示,超 78% 的央国企已将人力资源数字化纳入战…

ELK—— Elasticsearch Logstash Kibana

ELK—— Elasticsearch & Logstash & KibanaELK 是一套强大的开源日志管理和分析解决方案,它通过三个核心组件 ​Elasticsearch、Logstash​ 和 ​Kibana​ 的协同工作,帮助用户实现从日志收集、处理、存储到…

关于审批流的记录

第三步:前端实现(审批消息展示与操作)基于 Vue + Element UI 实现审批人页面的「消息通知」和「待审批列表」,集成到你的现有排班系统中。1. 全局消息通知(顶部导航栏)在系统顶部导航栏添加「消息图标」,显示未…

CF1726E Almost Perfect

Sol 首先不难注意到 \(p_i\) 和 \(p^{-1}_{i}\) 是距离恰好为 \(2\) 的点对。 然后不难想到图中每个连通块一定是 \(1,2,4\) 元环。 考虑只有 \(1,2\) 元环怎么做,考虑 DP,\(f_i\) 表示 \(i\) 个点的方案数,显然 \(…

Linux:线程池 - 指南

Linux:线程池 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "…

CSP-S模拟28

T1:挑战(challenge) 思路: 说是签到题(但是疑似没有T2简单?好吧,其实这题也不难,只是我傻而已) 只需要把所有的矿车挪到有矿车的最后一列,贪心和dp都可以,我写的dp。不难发现dp有两种状态转移过来,如下图,…