网站内部链接优化方法asp源码下载

web/2025/10/2 15:40:02/文章来源:
网站内部链接优化方法,asp源码下载,wordpress分类下的所有文章加密,公司网站建设与维护Ps#xff1a;喂喂喂#xff0c;你萌不要光收藏不点赞呀_(:з」∠)_emmmm... 搞清楚LSTM中的每个公式的每个细节为什么是这样子设计吗#xff1f;想知道simple RNN是如何一步步的走向了LSTM吗#xff1f;觉得LSTM的工作机制看不透#xff1f;恭喜你打开了正确的文章#… Ps喂喂喂你萌不要光收藏不点赞呀_(:з」∠)_ emmmm... 搞清楚LSTM中的每个公式的每个细节为什么是这样子设计吗想知道simple RNN是如何一步步的走向了LSTM吗觉得LSTM的工作机制看不透恭喜你打开了正确的文章 零、前置知识1: 在上一篇文章《前馈到反馈解析RNN》中小夕从最简单的无隐藏层的前馈神经网络引出了简单的循环神经网络 它就是无隐藏层的循环神经网络起名叫“simple RNN”。 这种方式即在每个时刻做决策的时候都考虑一下上一个时刻的决策结果。画出图来就是酱的 其中圆球里的下半球代表两向量的内积上半球代表将内积结果激活虽然通过这种简单反馈确实可以看出每个时间点的决策会受前一时间点决策的影响但是似乎很难让人信服这竟然能跟记忆扯上边 想一下人的日常行为流程是这样的。比如你在搭积木那么每个时间点你的行为都会经历下面的子过程 1、眼睛看到现在手里的积木。2、回忆一下目前最高层的积木的场景。3、结合1和2的信息来做出当前时刻积木插到哪里的决策。 相信聪明的小伙伴已经知道我要表达的意思啦。第1步手里的积木就是当前时刻的外部输入X第2步就是调用历史时刻的信息/记忆第3步就是融合X和历史记忆的信息来推理出决策结果即RNN的一步前向过程的输出y(t)。 有没有更加聪明的小伙伴惊奇的注意到第2步我们在回忆历史的时候一般不是简单的回忆上一个积木的形状而是去回忆一个更加模糊而宏观的场景。在这个例子中这个场景就是最近几次行为所产生出的抽象记忆——即“积木最高层的地形图” 也就是说人们在做很多时序任务的时候尤其是稍微复杂的时序任务时潜意识的做法并不是直接将上个时刻的输出y(t-1)直接连接进来而是连接一个模糊而抽象的东西进来这个东西是什么呢 当然就是神经网络中的隐结点h啊也就是说人们潜意识里直接利用的是一段历史记忆融合后的东西h而不单单是上一时间点的输出。而网络的输出则取自这个隐结点。所以更合理的刻画人的潜意识的模型应该是这样的 记忆在隐单元中存储和流动输出取自隐单元这种加入了隐藏层的循环神经网络就是经典的RNN神经网络即“standard RNN”。 RNN从simple到standard的变动及其意义对于本文后续内容非常重要哦。 零、前置知识2: 在上一篇文章《从前馈到反馈循环神经网络RNN》中简单讲解和证明过由于在误差反向传播时算出来的梯度会随着往前传播而发生指数级的衰减或放大而且这是在数学上板上钉钉的事情。因此RNN的记忆单元是短时的。 一、如何无损的运输梯度信息 好啦那我们就借鉴前辈设计RNN的经验从simple版本开始即无隐藏层的、简单完成输出到输入反馈的网络结构开始去设计一个全新的、可以解决梯度爆炸消失问题从而记住长距离依赖关系的神经网络吧 那么如何让梯度随着时间的流动不发生指数级消失或者爆炸呢 好像想起来挺难的但是这个问题可能中学生会解答那就是让算出来的梯度恒为1因为1的任何次方都是1嘛(∇) 所以按照这个搞笑的想法我们把要设计的长时记忆单元记为c以下全部用c指代长时记忆单元那么我们设计出来的长时记忆单元的数学模型就是这样子喽 这样的话误差反向传播时的导数就恒定为1啦误差就可以一路无损耗的向前传播到网络的前端从而学习到遥远的前端与网络末端的远距离依赖关系。 路人Excuse me 不要急不要急反正假设我们的c中存储了信息那么c就能把这个信息一路带到输出层没问题吧在T时刻算出来的梯度信息存储在c里后它也能把梯度一路带到时刻0而无任何损耗也没问题吧对吧(∇) 所以信息的运输问题解决了那么就要解决对信息进行装箱和卸车的问题。 二、如何将信息装入长时记忆单元 当然要先定义一下新信息是什么。不妨直接拿来simple RNN中对新信息的定义即当前时刻的外部输入x(t)与前一时刻的网络输出即反馈单元y(t-1)联合得到网络在当前这一时刻get到的新信息记为 。即 感谢评论区 hoshino042 指出此处笔误 好新信息 定义完成。下面考虑把 加到c里面去。如果把这个问题拿去问小学生的话那么可能会兵分两路 1、乘进去2、加进去 那么这两种哪种可行呢 其实稍微一想就很容易判断乘法操作更多的是作为一种对信息进行某种控制的操作比如任意数与0相乘后直接消失相当于关闭操作任意数与大于1的数相乘后会被放大规模等而加法操作则是新信息叠加旧信息的操作。 下面我们深入的讨论一下乘性操作和加性操作这在理解LSTM里至关重要。当然首先你要掌握偏导的概念和方法、复合函数的求导法则、链式求导法则。有了这三点微积分基础后才能看懂哦。基础不够的童鞋可以跳过这里的讨论。 论乘法 乘法时即令长时记忆添加信息时的数学模型为 因此网络完整数学模型如下 公式【0.1】 公式【0.2】 公式【0.3】 为了计算方便还是像之前一样假设激活函数为线性激活即没有激活函数。实际上tanh在小值时可以近似为线性relu在正数时也为线性这个假设还是很无可厚非的这时网络模型简化为 公式【1】 假如网络经过了T个时间步到了loss端这时若要更新t0时刻下网络参数V的权重则即对t0时刻的参数V求偏导即计算 其中 其中的f_loss(·)为损失函数 好稍微一算发现 中的f_loss的值就是我们要往前传的梯度参数更新信息则我们的目标就是讨论y(tT)写全了就是 公式【2】 对V求偏导时其他变量就是说的W和x自然也就成了常量这里我们再做一个过分简化直接删掉 项在y二阶乘方存在的情况下忽略一阶乘方这时就可以直接展开公式【1】 对v(0)求导的话会得到 如果说RNN的 是音速级的梯度爆炸和消失那这 简直是光速级爆炸和消失了呐 所以说直接将新信息乘进长时记忆单元只会让情况更糟糕导致当初c(t)c(t-1)让导数恒为1的构想完全失效这也说明了乘性更新并不是简单的信息叠加而是控制和scaling。 感谢评论区 承翊 改进此处表述 论加法 如果改成加性规则呢此时添加信息的数学模型为 与前面的做法一样假设线性激活并代入网络模型后得到 噫也有指数项不过由于v加了一个偏置1导致爆炸的可能性远远大于消失。不过通过做梯度截断也能很大程度的缓解梯度爆炸的影响。 嗯梯度消失的概率小了很多梯度爆炸也能勉强缓解看起来比RNN靠谱多了毕竟控制好爆炸的前提下梯度消失的越慢记忆的距离就越长嘛。 因此在往长时记忆单元添加信息方面加性规则要显著优于乘性规则。也证明了加法更适合做信息叠加而乘法更适合做控制和scaling。 由此我们就确定应用加性规则啦至此我们设计的网络应该是这样子的 公式【3.1】 公式【3.2】 公式【3.3】 那么有没有办法让信息装箱和运输同时存在的情况下让梯度消失的可能性变的更低让梯度爆炸的可能性和程度也更低呢 你想呀我们往长时记忆单元添加新信息的频率肯定是很低的现实生活中只有很少的时刻我们可以记很久大部分时刻的信息没过几天就忘了。因此现在这种模型一股脑的试图永远记住每个时刻的信息的做法肯定是不合理的我们应该只记忆该记的信息。 显然对新信息选择记或者不记是一个控制操作应该使用乘性规则。因此在新信息前加一个控制阀门只需要让公式【3.1】变为 这个g_in我们就叫做“输入门”啦取值0.01.0。 为了实现这个取值范围我们很容易想到使用sigmoid函数作为输入门的激活函数毕竟sigmoid的输出范围一定是在0.0到1.0之间嘛。因此以输入门为代表的控制门的激活函数均为sigmoid因此控制门 当然这是对一个长时记忆单元的控制。我们到时候肯定要设置很多记忆单元的要不然脑容量也太低啦。因此每个长时记忆单元都有它专属的输入门在数学上我们不妨使用 来表示这个按位相乘的操作用大写字母C来表示长时记忆单元集合。即 公式【4】 嗯由于输入门只会在必要的时候开启因此大部分情况下公式【4】可以看成C(t)C(t-1)也就是我们最理想的状态。由此加性操作带来的梯度爆炸也大大减轻啦梯度消失更更更轻了。 三、频繁装填带来的问题 等等爱思考的同学可能会注意到一个问题。万一神经网络读到一段信息量很大的文本以致于这时输入门欣喜若狂一直保持大开状态狼吞虎咽的试图记住所有这些信息会发生什么呢 显然就会导致c的值变的非常大 要知道我们的网络要输出的时候是要把c激活的参考公式【0.3】当c变的很大时sigmoid、tanh这些常见的激活函数的输出就完全饱和了比如如图tanh 当c很大时tanh趋近于1这时c变得再大也没有什么意义了因为饱和了脑子记不住这么多东西 这种情况怎么办呢显然relu函数这种正向无饱和的激活函数是一种选择但是我们总不能将这个网络输出的激活函数限定为relu吧那也设计的太失败啦 那怎么办呢 其实想想我们自己的工作原理就知道啦。我们之所以既可以记住小时候的事情也可以记住一年前的事情也没有觉得脑子不够用不就是因为我们。。。爱忘事嘛。所以还需要加一个门用来忘事这个门就叫做“遗忘门”吧。这样每个时刻到来的时候记忆要先通过遗忘门忘掉一些事情再考虑要不要接受这个时刻的新信息。 显然遗忘门是用来控制记忆消失程度的因此也要用乘性运算即我们设计的网络已进化成 或者向量形式的 好啦解决了如何为我们的长时记忆单元可控的添加新信息的问题又贴心的考虑到并优雅解决了信息输入太过丰富导致输入控制门“合不拢嘴”的尴尬情况那么是时候考虑我们的长时记忆单元如何输出啦 四、网络如何输出 有人说输出有什么好考虑的当前的输出难道不就仅仅是激活当前的记忆吗难道不就是最前面说的y(t)f(c(t))其中f(·)为激活函数 试想假如人有1万个长时记忆的脑细胞每个脑细胞记一件事情那么我们在处理眼前的事情的时候是每个时刻都把这1万个脑细胞里的事情都回忆一遍吗显然不是呀我们只会让其中一部分跟当前任务当前时刻相关的脑细胞输出即应该给我们的长时记忆单元添加一个输出阀门也就是说应该输出 嗯终于看起来好像没有什么问题了。 五、控制门受什么控制 那么我们最后再定义一下控制门们输入门、遗忘门、输出门受谁的控制就可以啦。 这个问题也很显然当然就是让各个门受当前时刻的外部输入x(t)和上一时刻的输出y(t-1)啦即 。。。。。。 好像这样的思维在RNN中并不会有什么问题但是不要忘了在我们这个新设计的网络中多了一堆阀门尤其注意到输出门一旦输出门关闭就会导致其控制的记忆f(c(t))被截断下一时刻各个门就仅仅受当前时刻的外部输入x(t)控制了这显然不符合我们的设计初衷尽可能的让决策考虑到尽可能久的历史信息。怎么办呢 最简单的做法就是再把长时记忆单元接入各个门即把上一时刻的长时记忆c(t-1)接入遗忘门和输入门把当前时刻的长时记忆c(t)接入输出门当信息流动到输出门的时候当前时刻的长时记忆已经被计算完成了。即 当然这个让各个门考虑长时记忆的做法是后人打的补丁这些从长时记忆单元到门单元的连接被称为peephole猫眼。 六、Simple版本设计完成 至此还有什么问题吗看起来真没有问题啦我们设计的simple版的网络就完成啦总结一下即 就起名叫“门限simple RNN”吧非学术界认可 七、向Standard版本演进 然而作为伟大的设计者怎么能止步于simple呢我们要像simple RNN推广出standardRNN的做法那样推广出我们的standard版本即加入隐藏层 为什么要加隐藏层已经在本文开头提到了这也是simpleRNN到standardRNN的核心区别这也是RNN及其变种可以作为深度学习的主角之一的原因。模仿RNN的做法我们直接用隐藏层单元h来代替最终输出y 感谢评论区 承翊 修正公式中的符号错误 显然由于h随时都可以被输出门截断所以我们可以很感性的把h理解为短时记忆单元。 而从数学上看的话更是短时记忆了因为梯度流经h的时候经历的是h(t)-c(t)-h(t-1)的连环相乘的路径在输入输出门关闭前显然如前边的数学证明中所述这样会发生梯度爆炸和消失而梯度消失的时候就意味着记忆消失了即h为短时记忆单元。 同样的思路可以再证明一下由于梯度只从c走的时候存在一条无连环相乘的路径可以避免梯度消失。又有遗忘门避免激活函数和梯度饱和因此c为长时记忆单元。 好啦我们standard版本的新型网络也完成了有没有觉得信息量超级大又乱掉了呢不要急贴心的小夕就再带你总结一下我们这个网络前馈的过程 新时刻t刚刚到来的时候 1、首先长时记忆单元c(t-1)通过遗忘门g_forget去遗忘一些信息。2、其中g_forget受当前时刻的外部输入x(t)、上一时刻的输出(短时记忆)h(t-1)、上一时刻的长时记忆c(t-1)的控制。3、然后由当前时刻外部输入x(t)和上一时刻的短时记忆h(t-1)计算出当前时刻的新信息 。4、然后由输入门g_in控制将当前时刻的部分新信息 写入长时记忆单元产生新的长时记忆c(t)。5、其中g_in受x(t)、h(t-1)、c(t-1)的控制。6、激活长时记忆单元c(t)准备上天输出。7、然后由输出门g_out把控将至目前积累下来的记忆c(t)选出部分相关的记忆生成这一时刻我们关注的记忆h(t)再把这部分记忆进行输出y(t)。8、其中输出门g_out受x(t)、h(t-1)和当前时刻的长时记忆c(t)的控制。 宏观上看就是 此图没有加入peephole连接前馈的过程写完了梯度反传的过程就让深度学习平台去自动求导来完成吧有M倾向的同学可以尝试对上述过程进行手动求导。 八、起个名字 好啦最后对全文的设计过程总结一下 1、我们为了解决RNN中的梯度消失的问题为了让梯度无损传播想到了c(t)c(t-1)这个朴素却没毛病的梯度传播模型我们于是称c为“长时记忆单元”。 2、然后为了把新信息平稳安全可靠的装入长时记忆单元我们引入了“输入门”。 3、然后为了解决新信息装载次数过多带来的激活函数饱和的问题引入了“遗忘门”。 4、然后为了让网络能够选择合适的记忆进行输出我们引入了“输出门”。 5、然后为了解决记忆被输出门截断后使得各个门单元受控性降低的问题我们引入了“peephole”连接。 6、然后为了将神经网络的简单反馈结构升级成模糊历史记忆的结构引入了隐单元h并且发现h中存储的模糊历史记忆是短时的于是记h为短时记忆单元。 7、于是该网络既具备长时记忆又具备短时记忆就干脆起名叫“长短时记忆神经网络(Long Short Term Memory Neural Networks简称LSTM)“啦。 参考文献 1.Hochreiter S, Schmidhuber J. Long Short-TermMemory[J]. Neural Computation,1997, 9(8): 1735-1780.2. Gers F A, Schmidhuber J, Cummins F, et al.Learning to Forget: Continual Prediction withLSTM[J]. Neural Computation,2000, 12(10): 2451-2471.3. Gers F A,Schraudolph N N, Schmidhuber J, etal. Learning precise timing with lstmrecurrent networks[J]. Journal of MachineLearning Research, 2003, 3(1):115-143.4. A guide to recurrent neural networks and backpropagation. Mikael Bod ́en.5. http://colah.github.io/posts/2015-08-Understanding-LSTMs/6. 《Supervised Sequence Labelling with Recurrent Neural Networks》Alex Graves7. 《Hands on machine learning with sklearn and tf》Aurelien Geron8. 《Deep learning》Goodfellow et.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/85687.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重庆网站产品推广荣耀正品查询入口

使用 Offset Explorer(也称为 Kafka Tool)3.0.1 连接到 Kafka 并通过 SASL 进行身份验证,可以按照以下步骤进行配置: 1. 确保 Kafka 配置支持 SASL 首先,确保你的 Kafka 集群已配置为支持 SASL。你需要在 server.pro…

网站开发建设总结论坛发帖

目录  (1)优点: (2)缺点: (3)使用场景: (4)注意事项: (5)应用实例: 代码 备忘录模式(memento) 备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对…

电子商务网站建设第一章课后住房建设部官方网站

Compose版本发展 19年,Compose在Google IO大会横空出世,大家都议论纷纷,为其前途堪忧。 21年7月Compose 1.0的正式发布,却让大家看到了Google在推广Compose上的坚决,这也注定Compose会成为UI开发的新风向。 23年1月…

商城网站素材设置 iis 网站维护中

1 Makefile的作用 Makefile 指的是一个叫 Makefile 的文件,里面提前写了一些指令。每次要自动化的完成一个比较复杂项目的自动编译用的时候,就在命令行输入“make”命令Makefile使用。使用Makefile可以 “智能” 的知道: 1 哪些文件需要先进行编译。 2 当某一文件在某次mak…

软件园专业做网站网站建设提供资料表

给个关注?宝儿! 给个关注?宝儿! 给个关注?宝儿! 1 JDBC基础 JDBC(Java Database Connectivity)是Java提供对数据库进行连接、操作的标准API。Java自身并不会去实现对数据库的连接、查询、更新等操作而是通…

网站导航一定要一样吗怎样打开网站

1.公安备案网址 https://beian.mps.gov.cn/ 选择用户登录->法人用户登录 左边的码下载APP,登上去之后用APP扫右边的码,人脸识别

怎么做网站表白合肥公司网站建设价格低

IP地址城市版查询接口 API是指能够根据IP地址查询其所在城市等地理位置信息的API接口。这类接口在网络安全、数据分析、广告投放等多个领域有广泛应用。以下是一些可用的IP地址城市版查询接口API及其简要介绍 1. 快证 IP归属地查询API 特点:支持IPv4 提供高精版、…

国外网站为啥速度慢垂直电商网站如何做内容运营

函数 需要声明原型支持不定参数 func sum(numbers ...int)int支持返回多值支持递归支持命名返回参数 // 命名返回参数 func add(a, b int) (sum int) {sum a breturn // 这里不需要显式地写出返回值,因为已经在函数签名中声明了命名返回参数 } 支持匿名函数、闭包…

外贸网站建设和优化wordpress主题外贸下载

大家好,提到Linux,一些用户会认为这是一个复杂的操作系统,因为所有工作都是通过终端使用命令来完成的。但是当用户开始在Linux上工作时,就会喜欢上这些命令,在Linux上工作一段时间后,用户会开始更喜欢Linux…

如皋网站建设招标wordpress查询次数

文章目录 计算机系统5G云计算第一章 LINUX ansible 自动化运维工具(机器管理工具)一、概述二、ansible 环境安装部署三、ansible 命令行模块1.command 模块2.shell 模块3.cron 模块4.user 模块5.group 模块6.copy 模块7.file 模块8.hostname 模块9.ping …

做视频网站视频文件都存放在哪里5118关键词查询工具

【本节目标】 1.vector的介绍及使用 2.vector深度剖析及模拟实现 1.vector的介绍及使用 1.1 vector的介绍 vertor文档介绍 1. vector是表示可变大小数组的序列容器。2. 就像数组一样,vector也采用连续存储空间来存储元素。也就是意味着可以采用下标对vector的元…

海北wap网站建设公司佛山网站建站建设

目录 准备: 开始: 1.解压 2.环境变量配置 3.生效环境变量配置文件 3.修改配置文件 1.修改zookeeper集群信息 2.修改mysql配置信息 4.启动 5.异常排查 6.页面 创作不易,你的动力是我创作的动力,如果有帮助请关注我&…

程家桥街道网站建设江苏电信网站备案

引言: SpringBoot确实帮助我们减少了很多配置工作,下面说一下程序是如何运行的。目前程序运行的入口就是SpringBoot工程创建时自带的那个类了,带有main方法的那个类,运行这个类就可以启动SpringBoot工程的运行。 @SpringBootApplication public class SpringBootQu…

郑州专业旅游网站建设网站建设需要这些工具和软件

面向对象 Object Oriented 面向对象的学习: 面向对象的语法(简单,记忆就可以搞定)面向对象的思想(稍难,需要一定的理解) 面向过程和面向对象的区别 面向过程开发,以函数作为基本结构…

闸北网站建设公司建设单位企业锁登陆网站

项目管理PMP6.0-五大过程组、十大知识领域、四十九个过程(记忆码:7664363734) 项目经理的影响力范围三者关系图(五大过程组、十大知识领域、四十九个过程)五大过程组十大知识领域十大知识领域之间联系 四十九个过程&am…

网站导航条模板南昌正规网站公司吗

Building Custom Tools for the DW/BI System 市场上有大量的工具帮我们来建立DW/BI系统、把信息交付给业务用户。这些工具的种类也很多,它们包括关系型数据库管理系统、OLAP数据库管理系统、ETL工具、数据挖掘工具、查询工具、报表工具,以及BI门户工具等…

网站建设合同标准版建设网站资质查询

一、安装支持stream的nginx版本: 1、首先,先下载nginx的rpm包,下载地址:http://nginx.org/packages/centos/7/x86_64/RPMS/ 下载 nginx-1.20.1-1.el7.ngx.x86_64.rpm2、执行安装命令: 然后,将下载好的rp…

企业标准型手机网站wordpress授权登录

System.SysUtils.AnsiCompareFileName 根据当前语言环境比较文件名。 在 Windows 下不区分大小写,在 MAC OS 下区分大小写。 在不使用多字节字符集 (MBCS) 的 Windows 区域设置下,AnsiCompareFileName 与 AnsiCompareText 相同。在 MAC OS 和 Linux 下&…

小米4路由器可以做网站嘛个人做的网站不能做淘客

文章目录 一 技术准备1.1 二维码技术(java)1.2 支付宝沙箱环境准备1.3 内网穿透 二 支付宝支付相关知识2.1 各种支付方式2.2 扫码付接入流程2.3 系统交互流程(时序图)2.4 加密逻辑 三 扫码支付实现3.1 添加maven依赖(Easy版)3.2 完…