为什么所有主流LLM都使用SwiGLU?

本文的目标是解释为什么现代LLM架构在前馈部分使用

SwiGLU

作为激活函数并且已经放弃了

ReLU

神经网络本质上是一系列矩阵乘法,如果我们堆叠线性层而不使用任何激活函数:

无论你堆叠多少层,它仍然只是一个线性变换,网络只能学习线性关系。

激活函数引入了非线性,使网络能够逼近复杂的非线性函数,这是深度学习表达能力的基础。

ReLU有什么问题?

ReLU

确实彻底改变了深度学习:

它简单、快速,并且解决了

sigmoid

tanh

等函数存在的梯度消失等问题。

虽然人们通常会列出使用

ReLU

时可能遇到的问题,比如神经元死亡等等,但这些问题要么是理论上的,要么在大多数情况下可以通过现代神经网络技术(批量归一化、自适应学习权重等)很好的避免。

不过在进入SwiGLU之前,我们先来看一个激活函数Swish,它是SwiGLU的组成部分。

Swish是一个"自门控"激活函数:输入 (x) 乘以其自身的sigmoidσ(x),它充当一个,控制有多少输入能够通过。

看看门的行为:

当x非常负时:σ(x) ≈ 0,所以门是关闭的(抑制输出)

当x非常正时:σ(x) ≈ 1,所以门是完全打开的(几乎原样通过输入)

尽管公式稍微复杂一些,

Swish

的行为与

ReLU

非常相似。

Swish比ReLU更好吗?

Swish

被发现比

ReLU

效果更好,但就像深度学习中的许多事情一样我们并不确切知道为什么

Swish

效果更好,不过倒是可以总结出以下的区别:

没有硬梯度截断

看上面的图,主要区别就是它们如何处理负输入:

ReLU:在零处硬截断

当x<0时:输出 = 0 且 梯度 = 0。这就是神经元死亡问题(尽管如前所述,通常可以通过BatchNorm等现代技术来避免)

Swish:平滑、渐进地趋近于零

对于负x:梯度渐近趋近于零,但对于有限值永远不会精确等于零/所以理论上神经元总是可以接收更新(尽管对于非常负的输入,更新可能可以忽略不计)

平滑性

ReLU

在x=0处有不连续性(导数从0跳到1)。

Swish

在任何地方都是无限可微的,这意味着梯度景观是平滑的。这种平滑性是否有助于

Swish

的性能还不是100%清楚但它可能有助于优化

什么是门控线性单元(GLU)?

下面就是

SwiGLU

的另外一个组件。让我们来谈谈GLU

其中:

x是输入

W 和 V 是权重矩阵

b和c是偏置向量

是逐元素乘法

σ是sigmoid函数

GLU

使用门控机制在这方面与

Swish

有些相似。而它们区别在于GLU不是对所有特征应用相同的变换(恒等变换)然后用固定函数(sigmoid)进行门控,而是使用两个独立的线性投影:

xW+ b这只是取输入并对其进行变换。它通常被称为 内容路径

σ(xV + c):这第二部分说明每个特征的内容应该让多少通过,因此它被称为 门路径

所以GLU

实际上可以被认为是

Swish` 的泛化

逐元素乘法允许选择内容的哪些元素可以通过。当σ(xV + c)接近0时,门可以完全抑制某些特征,而当σ(xV + c)接近1时则完全让其他特征通过。

门控的具体示例

假设我们有一个4维向量x = [1.0, -0.5, 2.0, 0.3]

GLU对同一个输入应用2个变换:

  1. 通过内容路径对内容进行变换:xW + b。假设它产生 **[2.0, -1.5, 3.0, 0.5]**1. 第2个变换应该扮演门的角色:σ(xV + c)。假设它产生[0.9, 0.1, 0.95, 0.05]

GLU输出是它们的逐元素乘积:

GLU output = [2.0 × 0.9, -1.5 × 0.1, 3.0 × 0.95, 0.5 × 0.05] = [1.8, -0.15, 2.85, 0.025]

得到的结果如下:

**特征1:**内容为正(2.0),门值高(0.9)→ 强烈通过(1.8)

**特征2:**内容为负(-1.5),门值低(0.1)→ 被阻挡(-0.15)

**特征3:**内容为正(3.0),门值非常高(0.95)→ 完全通过(2.85)

**特征4:**内容较小(0.5),门值非常低(0.05)→ 被抑制(0.025)

这样网络学习了复杂的决策规则:“对于像x这样的输入,放大特征1和3,但抑制特征2和4。”

那么SwiGLU是什么?

现在我们有了所有的组成部分,

SwiGLU

(Swish门控线性单元)简单地结合了Swish和GLU:

它不是像GLU那样使用sigmoid作为门,而是使用Swish。这就是为什么它被称为Swish +GLU

那么公式的每个部分做什么呢?这与GLU的逻辑完全相同,改变的只是门控函数。

  • Swish(xW):门——决定每个特征有多少可以通过
  • xV:内容——正在传输的实际信息
  • :逐元素乘法——将门应用于内容

为什么SwiGLU效果这么好?

从经验上看,SwiGLU在LLM中优于其他激活函数(尽管目前还不确定VLM的情况)。但为什么呢?

乘法交互创建特征组合

考虑每种架构计算的内容:

标准FFN(ReLU/GELU):

output = activation(xW₁) @ W₂

每个输出维度是激活特征的加权和,激活是逐元素应用的——特征在激活内部不会相互交互。

SwiGLU FFN

output = (Swish(xW) ⊙ xV) @ W₂

逐元素乘法在两条路径之间创建乘积。如果我们用g = Swish(xW)c = xV表示,那么在最终投影之前的输出维度igᵢ × cᵢ

这就是为什么这很重要:gᵢcᵢ都是输入特征的线性组合(在Swish之前)。它们的乘积包含像xⱼ × xₖ这样的交叉项。网络可以学习WV,使得某些输入特征组合被放大或抑制。

这类似于为什么注意力机制很强大,注意力计算softmax(QKᵀ)V,其中QKᵀ乘积捕获查询和键特征之间的交互。SwiGLU为FFN带来了类似的乘法表达能力。

为什么不在门中使用sigmoid而是使用Swish?

GLU使用sigmoid:σ(xW) ⊙ xV。sigmoid的问题在于它会饱和。对于大的正或负输入,σ(x) ≈ 1σ(x) ≈ 0,且梯度∂σ/∂x ≈ 0,门就会被“冻结”了。

Swish对于正输入不会饱和,它近似线性增长(就像

ReLU

)。这意味着:- 梯度通过门路径流动得更好 - 门可以调节而不仅仅是开/关切换

平滑性

另外就是SwiGLU是无限可微的,这种平滑性可能有助于优化稳定性。

总结

SwiGLU的强大来自于其门控机制和乘法交互。通过将输入分成两条路径并将它们相乘,网络可以学习哪些特征组合是重要的——类似于注意力机制如何通过 QKᵀ捕获交互。

结合Swish的非饱和梯度,这使得SwiGLU对于大型模型特别有效。

https://avoid.overfit.cn/post/3fa28c75fb0b4874aa297defa145ec4a
作者:Safouane Chergui

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

模拟南宁理工学院官网页面

真实南宁理工学院官网页面开始模拟代码&#xff1a;南宁理工学院校徽&#xff1a;校门&#xff1a;成品&#xff1a;

2026年长沙婚纱礼服推荐租赁排名:年初备婚请看 - charlieruizvin

2026年长沙婚纱礼服推荐租赁排名:年初备婚请看伴随95后、00后逐步成为婚恋消费市场的核心群体,婚纱礼服租赁行业的需求偏好正发生结构性转变,摒弃同质化款式,崇尚“正版高定+个性化服务”已成为主流趋势。 据行业权…

兰亭妙微洞察:B 端与 C 端界面设计核心差异,别再用 C 端思维做 B 端

在界面设计领域&#xff0c;B端与C端产品的核心目标、用户群体、使用场景截然不同&#xff0c;若混淆二者设计逻辑&#xff0c;极易导致产品实用性大打折扣。B端产品聚焦企业级需求&#xff0c;以“效率、精准、安全、可拓展”为核心诉求&#xff0c;服务于特定岗位的专业用户&…

兰亭妙微:以交互设计与UI设计赋能文旅小程序,重塑用户体验界面设计优化新标杆

在数字化浪潮席卷文旅行业的当下&#xff0c;小程序已成为品牌触达用户、转化业务的核心载体。新东方文旅作为教育行业头部企业跨界文旅领域的先锋力量&#xff0c;凭借独特的教育资源优势&#xff0c;致力于打造高品质、有文化内涵的文旅产品。随着战略升级&#xff0c;其目标…

计算机毕设怎么写?从选题到答辩的超详细通关攻略

&#x1f4ab; 关于文星毕设 深耕计算机毕设领域5年&#xff0c;全网累计帮助10000学生顺利毕业&#xff01;CSDN认证全栈技术博主、掘金优质创作者&#xff0c;阿里云开发者社区认证专家。 在校期间曾协助导师完成3届毕业生毕设课题审核、论文格式规范指导、项目代码校验工作&…

Linux软件安装 —— JDK安装

文章目录一、节点说明二、下载安装包三、检查/删除现有JDK四、安装一、节点说明 IP主机名192.168.10.102node02192.168.10.103node03192.168.10.104node04二、下载安装包 官网地址&#xff1a;Java Archive Downloads - Java SE 8u211 and later | Oracle 中国 本文安装版本…

HTML标签的使用 - 标题和段落

标题和段落 特点h1 ~ h6一共6级文字自动加粗 + 独占一行h1最好每个页面使用一次,一般用于文章标题或logo Logo使用h1标签的例子: 京东首页除了新闻类场景标题可做分级,其他场景也可使用,例如:小米商城首页的商品…

YOLO26 接入实时视频 - GPU 加速2

经过优化后&#xff0c;稳定在60ms&#xff0c;不卡顿import cv2 from ultralytics import solutions import torch # ✅ 必须在文件顶部 新增导入torch&#xff01;&#xff01;&#xff01; import gc # ✅ 必须在文件顶部 新增导入gc&#xff01;&#xff01;&#xff01…

【Linux】带上时区

cat > setup_vnc.sh << SCRIPT #!/bin/bash# 设置时区为香港 ln -sf /usr/share/zoneinfo/Asia/Hong_Kong /etc/localtime echo "Asia/Hong_Kong" > /etc/timezone echo "时区已设置为 Asia/Hong_Kong"# 切换到库文件目录 cd /usr/lib/x86_64-…

视觉语言导航(VLN)入门基础! - MKT

视觉语言导航(VLN)入门基础!

数论1:整除、同余、质数筛

数论1:整除、同余、质数筛1.整除关系是指,对于两个整数p、q, 有q%p=0, 或存在整数k使得q = k*p, 记作p|q。 整除关系有如下性质:𝑎∣𝑏 ⟺ −𝑎∣𝑏 ⟺ 𝑎∣−𝑏 ⟺ |𝑎|∣|𝑏| 𝑎∣𝑏 ∧…

MySQL Buffer Pool深度解析:当缓存页不足时如何基于LRU算法进行淘汰 - 详解

MySQL Buffer Pool深度解析:当缓存页不足时如何基于LRU算法进行淘汰 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fami…

内存管理-MMU

MMU(Memory Management Unit,内存管理单元) 是 CPU 中负责虚拟内存与物理内存管理的专用硬件模块,位于 CPU 与主存之间。 MMU 的一个重要功能,是让你能将任务作为独立程序管理 —— 这些程序会运行在各自专属的虚…

1.18假期记录

今天继续教资科目二到学习,以及了解寒假生活指导中的智能体、大模型的知识准备深入研究

区间dp

一、核心思想与适用题型 核心思想 区间DP的核心是将问题分解为子区间求解,通过解决子区间的最优解来构建整个区间的最优解。其基本思路是:定义状态表示区间[i, j]的属性通过枚举分割点将大区间划分为两个或多个子区间…

STM32-S57-烟雾浓度+温度+人体防盗报警+水泵+风扇+TFT彩屏+阈值+声光报警+(无线方式选择)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32-S57-烟雾浓度温度人体防盗报警水泵风扇TFT彩屏阈值声光报警(无线方式选择)(设计源文件万字报告讲解)&#xff08;支持资料、图片参考_相关定制&#xff09;_文章底部可以扫码STM32-S57N无无线-无APP板: STM32-S57B蓝牙无线-APP版: STM32-S57W-WIFI无线-APP版: STM32-S57C…

综述《导航定位与授时》封面丨飞行器视觉导航新时代——从地形匹配到空间智能 - MKT

综述《导航定位与授时》封面丨飞行器视觉导航新时代——从地形匹配到空间智能 https://mp.weixin.qq.com/s/TH24qu1fDlMkRSr4e8z7zw《导航定位与授时》2025年第3期封面文章由北京自动化控制设备研究所尚克军研究员等完…

STM32-S184-车位感应+停车引导+闸道控制+车道防夹+计时计费+结算+OLED屏+声光报警+按键+(无线方式选择)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫

STM32-S184-车位感应停车引导闸道控制车道防夹计时计费结算OLED屏声光报警按键(无线方式选择)STM32-S184N无无线-无APP板(硬件操作详细): STM32-S184B蓝牙无线-APP版: STM32-S184W-WIFI无线-APP版: STM32-S184CAN-视频监控WIFI无线-APP版: STM32-S184I-云平台-APP版: 产品功能描…

AI Agent在智能新闻事件检测中的应用

AI Agent在智能新闻事件检测中的应用 关键词:AI Agent、智能新闻事件检测、自然语言处理、机器学习、信息抽取 摘要:本文深入探讨了AI Agent在智能新闻事件检测中的应用。随着新闻信息的爆炸式增长,传统的新闻事件检测方法面临诸多挑战,而AI Agent凭借其强大的自主学习、推…

【六杆】基于matlab六杆快速回归机制运动学和动力学分析【含Matlab源码 14990期】

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到海神之光博客之家&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49…