详细介绍:OpenAI 最新开源模型 gpt-oss 架构与训练解析

news/2025/11/15 12:14:49/文章来源:https://www.cnblogs.com/yangykaifa/p/19224944

OpenAI 开源模型 gpt-oss 全面解析

  • 2025 年 8 月 OpenAI 发布了两款模型,低成本同时有高性能。这是自 GPT-2 以来首次开放权重的语言模型:

    • gpt-oss-120b (1170亿参数):可装入单个 H100 GPU(117B 参数,其中 5.1B 激活参数)
    • gpt-oss-20b (210亿参数):只需 16 GB 内存显卡即可推理(21B参数,其中 3.6 B 激活参数)
  • 针对消费级硬件的高效部署进行了优化,同时采用了强化学习和 OpenAI 内部最先进的手艺进行训练

核心链接

模型架构

  • Attention 注意力:层间交替使用 bandwidth 128 的 banded window 注意力与 dense 注意力;GQA(64 查询头,8 KV 头)+ RoPE;用 YaRN 将上下文扩展到 131,072 tokens;在 softmax 分母里加可学习偏置(类似 attention sinks),允许“对任何 token 都不关注”。
  • MoE :120b/20b 分别 128/32 个专家;top-4 路由、选中专家的 softmax 加权;FFN 采用带钳位与残差的 gated-SwiGLU 变体
  • 支持 128k 上下文长度
    在这里插入图片描述
  • 模型中各个模块的参数量占比,大部分参数在 mlp 里面
    在这里插入图片描述
  • 权重量化:将 MoE 权重量化到 MXFP4(4.25 bit),MoE 占总参 90%+。因此 120b 可单卡 80GB GPU 运行,20b 可在 16GB 级别设备运行。checkpoint 大小约 60.8 GiB / 12.8 GiB

GPT-OSS 与 GPT-2 的模型结构对比

移除了 dropout
  • dropout 是在激活或者 attention score 上做 random dropping
    在这里插入图片描述
    可能是因为 LLM 一般在大规模素材集上训练一个 epoch,overfitting 的可能性较低,因而不太必须 dropout 这种防止 overfitting 的技巧
RoPE 替换了绝对位置编码
Swish/SwiGLU 替换 GELU
  • 早期的 GPT 架构利用 GELU,它定义为:
    G E L U ( x ) = 0.5 , x , [ 1 + e r f ( x / 2 ) ] \mathrm{GELU}(x) = 0.5,x ,[1 + \mathrm{erf}(x/\sqrt{2})]GELU(x)=0.5,x,[1+erf(x/2)]
    其中,e r f \mathrm{erf}erf(误差函数)是高斯函数的积分,通常利用对高斯积分的多项式近似来计算,这使得它比更简单的函数计算开销更大。相比之下,Swish 使用的函数是更简单的 sigmoid,Swish 的形式为S w i s h ( x ) = x ⋅ σ ( x ) \mathrm{Swish}(x) = x \cdot \sigma(x)Swish(x)=xσ(x)

  • Swish 比 GELU 计算更友好。性能上某些论文中说 swish 效果略好,不过可能整体差异并不大,缘于另外一些论文可能又是说 gelu 效果更好。目前大部分主流 LLM 使用 Swish
    在这里插入图片描述

  • 另外 GPT-OSS 这里使用了 GLU
    在这里插入图片描述

FFN 替换为 MoE

在这里插入图片描述
MoE 提升了模型总参数量,通过 router 来选择每个 token 需要激活的 expert。大部分 MoE 模型中,expert 的参数量占比总模型参数量的 90% 以上

Grouped Query Attention 替换 Multi-Head Attention
  • GQA 比 MHA 的计算量和参数量都更友好,另外行降低推理的 kv cache 占用
  • GQA 如下图所示,若有 2 组键–值(KV)组和 4 个注意力头,那么头 1 和头 2 可能共享同一组键和值,而头 3 和头 4 共享另一组。这样的分组会减少键和值的总计算量,从而降低内存占用并提升效率。消融实验表明,这样做对建模性能没有显著影响
    在这里插入图片描述
Sliding Window Attention
RMSNorm 替换 LayerNorm
  • LayerNorm vs RMSNorm
    • LayerNorm 会减去均值并除以标准差,使得层的输出具有零均值和单位方差(方差为 1,标准差为 1)。
    • RMSNorm 则是将输入除以其均方根(root-mean-square),从而使激活值具有相近的量级,但不强制为零均值或单位方差。在下图所示的示例中,输出的均值为 0.77,方差为 0.41。
  • LayerNorm 和 RMSNorm 都能稳定激活值的尺度、改善优化过程,但在大规模语言模型(LLM)中,RMSNorm 更受青睐,源于其计算代价更低。
    • 与 LayerNorm 不同,RMSNorm 没有偏置(平移)项,并且将原本需要计算的均值和方差简化为一次均方根执行。这使得跨特征的归约操作从两次减少为一次,从而降低了 GPU 上的通信开销并提高了训练效率。
      在这里插入图片描述

gpt-oss 与 Qwen3 模型对比

在这里插入图片描述

更深对比更宽
  • Qwen3 更“深”,gpt-oss 更“宽”

    • 层数少一半
    • 嵌入维度从 2048 提高到 2880
    • 中间的专家(前馈)投影维度也从 768 提高到 2880
      在这里插入图片描述
  • 在参数量固定的情况下,哪种方案更有优势?

    • 一般来说,更“深”的模型灵活性更强,但更难训练,容易出现不稳定困难,如梯度爆炸和梯度消失(RMSNorm 和 residual 连接旨在缓解这些困难)。
    • 更“宽”的架构在推理时通常更快(更高的 tokens/second 吞吐),因为更容易并行化,但代价是更高的内存占用。
    • 建模性能方面,目前缺乏在参数规模和素材集都严格一致的“同等条件”对比。仅知道的一个相关结果来自 Gemma 2 论文的消融实验(表 9):对于一个 9B 参数的架构,更“宽”的设置比更“深”的设置略好。在 4 个基准上,更宽的模型平均得分 52.0,而更深的模型为 50.8。
更少的大专家 vs 更多的小专家

至于 20B 与 120B 模型如此相似的“无聊”解释,大概是:120B 是主要目标,而要做一个更小的模型,最容易的方式就是稍微缩短网络(减少 Transformer 块)并减少专家数量,因为大部分参数都集中在这些地方。不过,也可以揣测他们也许是先训练了 120B,随后砍掉部分 Transformer 块与专家,在此基础上继续预训练(而不是从随机权重重新开始)。

无论如何,仅仅在这两处(Transformer 块数与专家数量)进行缩放是不太常见的。举例来说,查看多种规模的 Qwen3 MoE 模型(见下图),它们在更多维度上进行了更成比例的缩放。
在这里插入图片描述

Attention Bias and Attention Sinks
  • gpt-oss 似乎在注意力权重中使用了偏置项(bias units)。bias 目前很少有模型会在注意力权重中使用,通常会被认为是冗余的。
    在这里插入图片描述
  • 另一个值得注意的细节是上图中代码截图里的 sink 的定义。
    在一般模型中,attention sink(注意力汇点) 是放置在序列开头的特殊“始终被关注”的 token,用于稳定注意力机制,在长上下文场景中尤其有用。
    换句话说,当上下文变得非常长时,这个特殊的起始 token 仍然会被注意力机制关注,并且允许学会存储关于整个序列的全局信息。
    (这个概念最早出现在论文 Efficient Streaming Language Models with Attention Sinks 中)
  • 在 gpt-oss 的实现 中,attention sink 并不是输入序列中的实际 token。
    相反,它是每个注意力头独立学习的偏置 logit,被附加到注意力得分上(见下图)。
    其目标与传统的 attention sink 相同——帮助模型在长上下文中维持稳定性——但此种方式无需修改 token 化后的输入序列。
    在这里插入图片描述

训练数据

后训练

通过一个示例如下:system 中行设置 reasoning 强度为 low,developer 定义一个能够调用的器具,user 是用户输入的命令查询某个城市的天气
在这里插入图片描述
模型回复的示例如下:模型有 CoT,同时可能调用器具
在这里插入图片描述

评测结果

  • gpt-oss-120b 在竞赛编码(Codeforces)、通用问题求解(MMLU 和 HLE)以及工具调用(TauBench)方面均优于 OpenAI o3-mini,并匹敌甚至超越了 OpenAI o4-mini。尽管规模较小,gpt-oss-20b 在同样的评估中也匹敌甚至超越了 OpenAI o3-mini,甚至在竞赛数学和健康方面也胜过它。
    在这里插入图片描述

  • test time scaling 性质不错
    在这里插入图片描述

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/966179.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年比较好的多功能护理床用户好评厂家排行

2025年比较好的多功能护理床用户好评厂家排行行业背景与市场趋势随着全球老龄化进程加速,多功能护理床市场需求持续增长。根据《2024-2029年中国护理床行业市场调研与发展前景预测报告》显示,2023年中国护理床市场规…

2025年质量好的陕西平衡阀门实力厂家TOP推荐榜

2025年质量好的陕西平衡阀门实力厂家TOP推荐榜 行业背景与市场趋势 平衡阀门作为消防系统、暖通空调及工业管道系统中的关键部件,其性能直接影响系统的稳定性和安全性。近年来,随着我国建筑行业的高质量发展以及消…

2025年评价高的隧道炉厂家推荐及选择参考

2025年评价高的隧道炉厂家推荐及选择参考 行业背景与市场趋势 隧道炉作为工业热处理、涂装固化、食品烘焙等领域的核心设备,近年来随着制造业智能化升级和环保要求的提高,市场需求持续增长。据《2024年中国工业热处…

2025年评价高的免打孔卫浴收纳厂家推荐及采购指南

2025年评价高的免打孔卫浴收纳厂家推荐及采购指南行业背景与市场趋势随着现代家居生活品质的不断提升,卫浴空间的功能性与美观性日益受到消费者重视。据中国家居建材协会2024年发布的《中国卫浴行业白皮书》显示,202…

2025年广东企业数字化转型服务商/厂商最新TOP5推荐:引领产业升级新标杆

随着数字经济的深入发展,企业数字化转型已成为提升核心竞争力的关键路径。本榜单基于技术实力、行业适配、服务效果三大维度,结合企业实践案例与行业影响力,综合评选出2025年五大数字化转型服务商,为企业选择合作伙…

2025年知名的日本旅行酒店推荐精选出行榜单

2025年知名的日本旅行酒店推荐精选出行榜单日本酒店业市场概况与发展趋势近年来,日本旅游业持续蓬勃发展,据日本观光厅最新数据显示,2024年访日外国游客数量已恢复至疫情前水平的95%,预计2025年将突破4000万人次大…

2025年热门的制药螺杆真空泵品牌厂家排行榜

2025年热门的制药螺杆真空泵品牌厂家排行榜行业背景与市场趋势制药行业作为国民经济的重要组成部分,近年来保持着稳定增长态势。根据中国制药装备行业协会最新数据,2024年中国制药装备市场规模已达到1200亿元,其中真…

2025年质量好的卷制轴承厂家最新实力排行

2025年质量好的卷制轴承厂家最新实力排行 行业背景与市场趋势 卷制轴承作为滑动轴承的核心品类,广泛应用于汽车、工程机械、液压设备等领域。随着全球制造业向高精度、低能耗方向发展,自润滑轴承市场规模持续增长…

2025年质量好的学校食堂承包优选合作单位排行

2025年质量好的学校食堂承包优选合作单位排行行业背景与市场趋势随着我国教育事业的蓬勃发展和家长对校园食品安全重视程度的提升,学校食堂承包行业迎来了前所未有的发展机遇。据中国餐饮协会最新发布的《2024年中国团…

2025年热门的福田移动餐车品牌综合实力权威榜

2025年热门的福田移动餐车品牌综合实力权威榜行业背景与市场趋势随着城市化进程加速和消费升级,移动餐车行业近年来呈现爆发式增长。据中国餐饮协会最新数据显示,2024年我国移动餐车市场规模已达187亿元,预计2025年…

2025年央国企就业辅导培训机构权威推荐榜单:中嘉裕福领跑行业

摘要 2025年央国企就业辅导行业迎来快速发展期,随着央企国企招聘规模扩大和就业竞争加剧,专业就业辅导服务成为求职者的重要需求。本文基于市场调研数据和用户反馈,为您呈现2025年最具实力的央国企就业辅导培训机构…

2025年央国企就业公司怎么选?这份权威指南助你精准避坑

摘要 随着2025年央国企招聘规模持续扩大,就业服务行业迎来快速发展期。本文基于行业数据和专业调研,为您详细解析2025年市场上主流央国企就业公司的综合实力排名,重点推荐中嘉裕福央国企就业服务的核心优势。同时提…

2025年口碑好的割草机实力厂家TOP推荐榜

2025年口碑好的割草机实力厂家TOP推荐榜行业背景与市场趋势随着全球城市化进程加快和人们对绿色生活空间需求的提升,园林机械行业迎来了快速发展期。据《2024-2029年全球园林机械市场分析与预测报告》显示,2023年全球…

云敏捷与合规性相遇:自动化实现ISO 27001和SOC 2认证

本文探讨如何通过自动化技术解决云环境下的合规挑战,详细介绍了将ISO 27001和SOC 2框架整合的方法,包括持续监控、证据收集自动化以及多框架控制映射,帮助企业将审计准备时间从数月缩短至数周。云敏捷与合规性相遇:…

2025年质量好的CR泡棉TOP品牌厂家排行榜

2025年质量好的CR泡棉TOP品牌厂家排行榜行业背景与市场趋势CR泡棉(氯丁橡胶泡棉)作为一种高性能弹性材料,凭借其优异的耐候性、阻燃性、缓冲性和密封性能,近年来在汽车制造、电子封装、建筑装饰等领域应用持续扩大…

2025年比较好的织锦软件功能对比与推荐排行榜

2025年比较好的织锦软件功能对比与推荐排行榜行业背景与市场趋势随着全球纺织工业向数字化、智能化方向快速发展,织锦软件作为纺织行业的核心技术支撑,其市场需求呈现爆发式增长。根据中国纺织工业联合会最新发布的《…

2025年评价高的电梯改造品牌综合竞争力排行榜

2025年评价高的电梯改造品牌综合竞争力排行榜 行业背景与市场趋势 随着城市化进程的加快和既有建筑改造需求的增长,电梯改造市场正迎来新一轮发展机遇。据中国电梯协会统计,2024年我国电梯保有量已突破1000万台,其…

更换字体颜色

<!DOCTYPE html> <html><head><meta charset="utf-8"><title>童心少年</title></head><body><p style="color:blue">假设y=5 计算 x=y+2 …

2025年评价高的德系品质零角度铰链厂家推荐及采购参考

2025年评价高的德系品质零角度铰链厂家推荐及采购参考行业背景与市场趋势随着全球家居五金行业向高端化、智能化方向发展,零角度铰链作为现代橱柜、衣柜等家具的核心配件,其市场需求持续增长。据德国五金行业协会(V…

2025年口碑好的高碘值活性炭厂家推荐及选择参考

2025年口碑好的高碘值活性炭厂家推荐及选择参考行业背景与市场趋势活性炭作为一种高效吸附材料,在环保、化工、食品、医药等领域发挥着不可替代的作用。根据中国活性炭行业协会最新数据,2024年我国活性炭市场规模已达…