详细介绍:17-Language Modeling with Gated Convolutional Networks

news/2025/10/24 19:27:35/文章来源:https://www.cnblogs.com/wzzkaifa/p/19164101

目录

摘要:

主要公式:

GTU

实验结果:

计算成本:

门控:

非线性:

与CNN方法的区别:

详细解释

1. 目标根本不同:序列建模 vs. 特征提取

2. 因果卷积:最要紧的区别

3. 门控机制:性能强大的关键

4. 与RNN/LSTM的对比视角(文中背景)

总结


摘要:

本文提出了gated CNN 网络,gated linear units利用献出一个线性通道降低了梯度消失问题,并且保持非线性能力。

主要公式:

本文通过函数f对输入进行卷积,H=f*w通过, 此过程将根据前面的单词数量计算每个上下文。与LSTM相比,context的大小是有限的,本文证实了无限的context大小是不必要的,该模型能够表示足够大的context。

卷积公式:

每层的输出是线性映射乘以gate:\sigma(X*V+c)

依据对输入E堆叠多层得到每个word的context表示:

H=h_{L}*.*.*h_0(E)

我们将卷积和门控线性单元包裹在一个预激活残差块中,这些块具有计算效率的瓶颈结构,每个块最多有5层。

具体参数:其中k可以理解为卷积核的大小,

LSTM由输入门和遗忘门独立控制,使得信息能够无阻碍地跨越多个时间步长进行传递。CNN不会面临梯度消失问题,它们不必须遗忘门。

因此,我们专注于研究仅配备输出门的模型结构。这种设计使网络能够精准控制信息在层级间的传递内容。研究表明,该机制在语言建模任务中具有重要价值,因为它使模型能够自主筛选与下一词预测相关的关键词语或特征。

与我们研究同步的是,Oord等人(2016b)证实了形如tanh(X∗W+b)⊗σ(X∗V+c)的LSTM风格机制在图像卷积建模中的有效性。随后,Kalchbrenner等人(2016)通过增加门控单元扩展了该机制,将其成功应用于机器翻译和字符级语言建模任务。

GTU

门控线性单元是一种简化的门控机制,其理论基础源于Dauphin和Grangier(2015)提出的非确定性门控研究。该机制依据将线性单元与门控耦合,奏效缓解了梯度消失问题。这种设计既保留了网络层的非线性能力,又允许梯度经过线性单元无损地进行传播。

相比之下,我们将其称为门控tanh单元(GTU)的LSTM风格门控梯度则随着层堆叠梯度逐渐消失(由于tanh(x)和sigmoid(x)):

本文GLU的梯度为:

存在一条梯度路径∇X ⊗σ(X),该路径不会对σ(X)中已激活的门控单元进行缩放。这可以视为一种乘性跳跃连接,有助于梯度在网络层间流动。

实验结果:

长短期记忆网络(LSTM)与循环神经网络(RNN)能够捕捉长期依赖关系,正迅速成为自然语言处理领域的基石科技。在本节中,我们将文献中表现强劲的LSTM和RNN模型与我们基于门控卷积的方法在两个数据集上进行比较。

  1. 性能对比:在严格控制变量(GPU数量、输出层结构)的条件下,GCNN在语言建模任务(Google Billion Words数据集)上的性能(困惑度38.1)优于与之相当的LSTM模型(困惑度39.8)。

  2. 核心优势:GCNN具有显著更高的计算效率。它结合自适应softmax,用少得多的计算量就能达到与其他模型使用完整softmax时相近甚至更好的性能。

  3. 顶尖对比:与一个需要更多资源(32 GPU, 3周)的、规模更大的顶尖LSTM模型相比,GCNN(8 GPU, 2周)在性能(困惑度31.9 vs 30.6)上略有差距,但资源效率极高

  4. 改进潜力:文中指出,通过集成学习或专家混合模型等方式,GCNN的结果还有提升空间。

  1. 长序列建模能力:在包含长文档(平均4000词)的WikiText-103数据集上,GCNN继续优于LSTM,证明其固定上下文窗口足以有用建模长距离依赖。

  2. 与其他架构对比:在Gigaword数据集上,GCNN(困惑度29.4)显著优于全连接网络(困惑度55.6),凸显了其架构优势。

  3. 小数据集上的局限性:在较小的Penn Tree Bank数据集上,当句子独立处理时,GCNN与LSTM性能相当。但GCNN更容易过拟合,表明其优势在大规模数据上更能体现。

  4. 结论一种强大且高效的架构,特别适合就是:GCNN被证明大规模自然语言处理任务。其在长序列建模上的成功挑战了人们可能对卷积方法上下文限制的担忧。

计算成本:

语言模型的一个重要考量因素。根据具体应用场景,需权衡多项指标。我们将模型的就是计算成本吞吐量定义为每秒能处理的词元数量。通过并行处理大量句子来分摊序列化运行的开销,可以最大化吞吐量。相反,响应速度(responsiveness则是指按顺序逐个词元处理输入的速度。

因为它决定了处理一个文本语料库所需的总时间;而响应速度则反映了处理完一个句子所需的时间。一个模型可以通过批处理同时评估许多句子,从而实现低响应速度但高吞吐量。在这种情况下,该模型处理单个句子的速度较慢,但能以良好的速率并行处理大量句子。就是吞吐量之所以关键,

我们在达到相近性能(Google Billion Word 基准测试上困惑度约为 43.9)的模型上评估了其吞吐量和响应速度。我们对比了以下模型:表2中具有2048个单元的LSTM、一个带有7个具有瓶颈结构的Resnet块的GCNN-8Bottleneck,以及一个无瓶颈结构的GCNN-8。瓶颈块的设计是在两个k=1卷积层之间加入一个k>1的卷积层,利用先用k=1降维、进行卷积、再用k=1升维的方式,来降低计算成本。我们的结果表明,使用瓶颈块对于保持计算效率至关重要。

LSTM的吞吐量是通过使用大批次(750个长度为20的序列,即每批次15,000个词元)来测量的。响应速度是处理一个包含15,000个连续词元的序列的平均速度。表4显示,LSTM和GCNN的吞吐量相近。LSTM在GPU上表现非常好,缘于750的大批次大小使得不同句子之间可能达成高度并行化。这是因为LSTM的实现经过了充分优化并使用了cuDNN,而cuDNN中对卷积的构建并未针对我们模型中使用的二维卷积进行优化。我们相信通过更高效的二维cuDNN卷积行搭建更好的性能。

与LSTM不同,GCNN的并行化能够在两个维度上进行:跨句子并行,以及在每个句子内部的词元间并行。这使得GCNN的响应速度比LSTM快了20倍

门控:

  1. GLU的核心优势:其线性路径(梯度高速公路)有效缓解了梯度消失问题,导致收敛速度更快,并达到更低的最终困惑度

  2. 与GTU对比:GTU(如LSTM的门控)因tanhsigmoid均会饱和而导致梯度易被切断,性能较差。实验证明门控机制本身(GTU vs. Tanh)对性能提升至关重要。

  3. 与ReLU对比:ReLU虽也有线性路径(正区间)利于梯度传播,但GLU的显式门控提供了更强大的建模能力,因此在性能上(困惑度)显著优于ReLU(差距约5点)。

  4. 结论GLU在效率和性能上取得了最佳平衡,其优势在不同规模的数据集上均得到验证。它与ReLU的性能差距,堪比LSTM相对于传统RNN的改进幅度,凸显了其有效性。

非线性:

  1. 实验目的:量化评估GLU中非线性路径(由门控引入)的实际贡献,方法是与纯线性和双线性模型对比。

  2. 性能排序GLU > 双线性层 > 纯线性层。性能差距巨大,GLU相比双线性层有约20个困惑度的显著提升。

  3. 线性模型的失败:深度线性卷积网络(理论上可捕捉更多上下文)表现甚至不如传统的Kneser-Ney 5-gram模型,说明非线性建模能力对神经语言模型至关重要

  4. 双线性的启示:仅引入简单的双线性交互(一种较弱的非线性)就能显著超越传统n-gram和早期神经网络模型,证明了引入参数化交互的重要性

  5. GLU的成功关键:实验结果强有力地支持了GLU的成功源于其独特的结构:它同时拥有确保梯度顺畅传播的线性路径,以及负责艰难模式学习的非线性路径(门控)。二者缺一不可,共同作用产生了最佳效果。

与CNN方法的区别:

详细解释

1. 目标根本不同:序列建模 vs. 特征提取
  • GCNN:它的任务是理解一个序列(如一句话),根据上文预测下一个词。它关心的是顺序依赖关系

  • 经典CNN:它的任务是理解一张图片,识别其中的模式。它关心的是空间局部相关性

2. 因果卷积:最要紧的区别

这是GCNN用于序列建模的灵魂所在

输入序列: [x1, x2, x3, x4, x5, ...]

  • 卷积核大小k=3计算输出y3时,只能看到: [x1, x2, x3]
    计算输出y4时,只能看到: [x2, x3, x4]
    计算输出y5时,只能看到: [x3, x4, x5]
  • 为什么需要因果性? 在生成句子时,模型在预测第t个词时,是不可能知道t+1个词是什么的。因果卷积严格模拟了这一现实,确保了模型在训练和推理时行为一致。

3. 门控机制:性能强大的关键

文中反复强调GLU的优势。

  • 在深层网络中,梯度容易消失。GLU提供了一条线性路径(X * W + b),让梯度可以无衰减地直接传播,这大大改善了训练稳定性。

  • 相比之下,经典CNN通常使用ReLU,纵然容易,但在处理序列这种复杂依赖时,建模能力不如门控机制。

4. 与RNN/LSTM的对比视角(文中背景)

理解GCNN,一定要放在它作为RNN/LSTM的替代方案这个背景下。

  • RNN/LSTM:天然具有顺序性,但无法并行计算,速度慢

  • GCNN:依据因果卷积模拟顺序性,但卷积操作本身可以高度并行(同一序列内的所有位置可以同时计算),因此训练速度极快。它用深度来换取并行度长程依赖能力

总结

通过你能够这样理解:

  • 经典CNN 是处理空间问题(如图像)的利器。

  • 文中的门控卷积方法(GCNN)是专门为处理时间序列困难(如自然语言)而设计的CNN变体。它借助因果卷积来保证顺序性,通过门控机制来提升模型能力和训练稳定性,从而在语言建模等任务上达到甚至超过了RNN/LSTM的性能,同时获得了巨大的速度优势。

简而言之,CNN的思想在序列建模领域的一次成功改造和专门化应用就是GCNN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/945624.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字人:数字人公司排行榜及技术深度剖析

数字人企业:探索虚拟与现实的融合新纪元 数字人企业的创新之路与市场机遇解析 数字人企业排行榜及技术深度剖析 正文: 在当今科技飞速发展的时代,数字人企业正成为推动数字化转型的重要力量。它们不仅重塑了人机交互…

【同余最短路】学习笔记

例题 \(1\):P3403 跳楼机:给定正整数 \(h,x,y,z\),求有多少 \(d\in[1,h]\) 满足 \(ax+by+cz=d-1\),其中 \(a,b,c\) 为非负整数。这道题第一眼给我的印象是一道数论题,但仔细想了想发现做不了。注意到 \(x,y,z\) 的…

ESP32-S3入门第七天:UART串口通信与设备交互 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

数字人:数字人公司深度解析与未来展望

数字人企业 数字人企业新趋势:虚拟与现实的融合探索 数字人企业深度解析与未来展望 在当今科技飞速发展的时代,数字人企业正成为推动创新与变革的重要力量。数字人,作为虚拟与现实交互的桥梁,不仅改变了人机交互的…

CSP/NOIP 复习:单调栈

最近模拟赛打的都不是太好,先随便复习复习吧,马上就要 CSPS 了,我可以考好的。 这里放一些单调栈的题目,笛卡尔树先不说,这个我已经忘了,后天复习一下。 本体 栈中维护有单调性的数据,入栈时维护这个单调性,这…

数字人企业:数字人公司排行榜深度解析

数字人企业新纪元:创新科技重塑未来生态 探秘数字人企业的核心驱动力与市场前景 数字人企业排行榜深度解析与趋势洞察 正文: 在数字化浪潮席卷全球的今天,数字人企业正成为科技领域的一颗新星,推动着虚拟与现实的深…

数字人公司:数字人新趋势技术驱动与市场前景解析

数字人企业 数字人企业新趋势:技术驱动与市场前景解析 数字人企业排行榜与深度点评 在当今科技飞速发展的时代,数字人企业正成为人工智能和虚拟交互领域的热门焦点。这些企业通过创新技术,推动着虚拟数字人在娱乐、…

算法分析--生成排列

排列简介全排列,有顺序要求。 递归实现如何实现查找第u位置有哪些数字可以用,选择查到的第一个,填上去。if(u > n){for(int i=1;i<=n;i++)cout<<path[i]<<" ";cout<<endl; }再去…

三大安全认证授权协议深度对比:OAuth、OpenID Connect与SAML

本文深入解析OAuth、OpenID Connect和SAML三大主流安全认证协议的技术原理、架构差异与应用场景,帮助开发者在Web应用中实现安全可靠的身份验证与授权机制,涵盖协议流程、安全机制对比及最佳实践建议。安全认证与授权…

数据绑定相关概念理解

中文译本将 Data Binding 译为了数据绑定,很大程度上其实是拼音音译,没有实际意义。WPF 中的Binding 更多地是表达一种桥梁关系。Binding 对象的两端,分别是源(Source)和目标(Target),源即数据来源,目标就是数据要…

数字人企业:数字人公司排行榜Top 3解析

数字人企业:探索行业创新与未来趋势 数字人企业的崛起与发展洞察 数字人企业排行榜Top 3解析 在数字人领域,众多企业凭借技术实力和市场表现脱颖而出。根据综合评估,以下是当前表现突出的三家数字人企业,优先以像衍…

WPF 深入系列.2.布局环境.布局控件.Grid

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

(简记)(自用)线段树区间拆分时间复杂度证明

如题,假定整数域线段树初始区间 \([1,n]\),每次划分长度不为 \(1\) 的区间 \([l,r]\) 会找到 \(mid=\lfloor\frac{l+r}{2}\rfloor\),划分成 \([l,mid],[mid+1,r]\)。求证划分任意合法区间 \([L,R]\) 最多使用 \(O(\…

冬日绘板 2026 珂朵莉计划 如何获取 Token

冬日绘板是全国 OIer 的一项社交活动,一般于每年元旦春节进行,主要博弈目标为获取更多的 tokens。形式类似于曾经的 bilibili 夏日绘板,游玩例子见 2024冬日绘版回忆录——听取MLE声一片。 冬日绘板 2026 珂朵莉计划…

数字人企业:数字人公司技术驱动的三大标杆

数字人企业:AI浪潮下的产业新势力 从技术突破到商业落地,数字人企业如何重塑行业生态 像衍科技领衔,数字人企业开启三维交互新纪元 一、数字人企业排行榜:技术驱动的三大标杆 在AI技术加速迭代的背景下,数字人企业…

Linux下的拼音输入法 (2)

此贴介绍sunpinyin. 它的用户词典是~/.sunpinyin/userdict,下面的程序往里面加词:// -I/usr/include/sunpinyin-2.0 add-word.cpp -lsunpinyin#include <ime-core/userdict.h> #include <pinyin/pinyin_dat…

数字人:怎么选择数字人实力公司

数字人企业哪家好?解锁未来科技新势力 2025数字人企业竞争力解析与行业领跑者揭秘 数字人企业技术生态图谱:从创新到落地的全链路观察 第一:数字人企业排行榜——2025年度三大标杆企业解析 数字人技术的爆发式增长,…

拉格朗日插值优化DP

拉格朗日插值优化DP 第一类:减少范围 发现答案是个 \(k\) 次多项式,即使值域很大,也可以直接通过前 \(k+1\) 项的值得到答案 例题一:P5469 NOI2019] 机器人 设 \(f_{l,r,i}\) 表示考虑区间 \([l,r]\),其最大值为 …

容斥练习笔记

某模拟赛题 对于任意 \(1\le k\le n\),若有 \(v_k\) 个长度为 \(n\) 的错位排列中存在长度为 \(k\) 的循环节,即对于 \(p_{1\cdots k-1}\),\(a_{p_i}=p_{i+1},a_{p_k}=p_1\)。求 \(\sum v\)。 首先考虑错排的限制,…

SpringBoot整合缓存2-Redis

一、是什么:缓存的基本概念 缓存是一种存储技术,用于临时保存频繁访问的数据,以减少对数据库的直接访问,从而提升系统响应速度和降低数据库压力。在本案例中,我们使用 Redis 作为缓存中间件,结合 SpringBoot 和 …