增城建设局网站智冠宝企业网站管理系统

pingmian/2026/1/24 16:23:13/文章来源:
增城建设局网站,智冠宝企业网站管理系统,短视频营销方式,做同行的旅游网站#x1f935;‍♂️ 个人主页: AI_magician #x1f4e1;主页地址#xff1a; 作者简介#xff1a;CSDN内容合伙人#xff0c;全栈领域优质创作者。 #x1f468;‍#x1f4bb;景愿#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长#xff01;#xff01;… ‍♂️ 个人主页: AI_magician 主页地址 作者简介CSDN内容合伙人全栈领域优质创作者。 ‍景愿旨在于能和更多的热爱计算机的伙伴一起成长‍ ‍♂️声明本人目前大学就读于大二研究兴趣方向人工智能硬件虽然硬件还没开始玩但一直很感兴趣希望大佬带带 作者 计算机魔术师 版本 1.0 2023.10.15 摘要 本系列旨在普及那些深度学习路上必经的核心概念文章内容都是博主用心学习收集所写欢迎大家三联支持本系列会一直更新核心概念系列会一直更新欢迎大家订阅 该文章收录专栏 [✨— 《深入解析机器学习从原理到应用的全面指南》 —✨] Transformer 注意力Attention机制由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域例如在计算机视觉方向用于捕捉图像上的感受野或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT算法在NLP的11项任务中取得了效果的大幅提升堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。 背景和动机 作者采用Attention机制的原因是考虑到RNN或者LSTMGRU等的计算限制为是顺序的也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算这种机制带来了两个问题 时间片 t 的计算依赖 t−1 时刻的计算结果这样限制了模型的并行能力 传统的序列模型如循环神经网络存在着长期依赖问题难以捕捉长距离的依赖关系。顺序计算的过程中信息会丢失尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题但是对于特别长期的依赖现象,LSTM依旧无能为力。故提出了用CNN来代替RNN的解决方法平行化)。 长期依赖关系见笔记本 [classical concept.md](classical concept.md) 但是卷积神经网络只能感受到部分的感受野需要多层叠加才能感受整个图像而transformer注意力机制可以一层感受到全部序列并提出了 Multi-Head Attention 实现和卷积网络多个输出识别不同模式的效果 故提出了自注意力机制 我们下面的内容依次按照模型的顺序讲解首先讲解Positional Encoding在讲解自注意力机制和多头注意力机制再到全连接和跳跃连接 Positional Encoding 由于 Transformer 模型没有显式的顺序信息没有循环神经网络的迭代操作为了保留输入序列的位置信息顺序关系需要引入位置编码。位置编码是一种向输入嵌入中添加的特殊向量不被训练的用于表示单词或标记在序列中的位置。 相比起直接 concatenate 直接相加似乎看起来会被糅合在输入中似乎位置信息会被擦除我们可以假设concatenate 一个独热向量p_i 代表其位置信息 如图所示最后也可以看为二者相加但是此时的e^i 的权重W_P是可以被learn的 WP根据研究表明这个WP learn 有人做过了在convolution中seq to seq中类似的学习参数做法效果并不是很好还有说其实会添加很多的不必要的参数学习等issue地址https://github.com/tensorflow/tensor2tensor/issues/1591https://datascience.stackexchange.com/questions/55901/in-a-transformer-model-why-does-one-sum-positional-encoding-to-the-embedding-ra 不过我觉得实验才是真理但似乎目前我还没有看到相关实验如果有请在评论区留言所以有一个人手设置的非常奇怪的式子产生确定WP 其中WP 绘图如图所示 Transformer 模型一般以字为单位训练论文中使用了 sin(罪) 和 cos 函数的线性变换来提供给模型位置信息. 理想情况下信息编码piece of information的设计应该满足以下条件 它应该为每个字时间步输出唯一的编码不同长度的句子之间任何两个字时间步之间的差值应该保持一致我们的模型应该无需任何努力就能推广到更长的句子。它的值应该是有界的。它必须是确定性的 在Transformer中位置编码器的函数可以由以下公式表示 P E ( p o s , 2 i ) sin ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i)} \sin\left(\frac{{pos}}{{10000^{2i/d_{\text{model}}}}}\right) PE(pos,2i)​sin(100002i/dmodel​pos​) P E ( p o s , 2 i 1 ) cos ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i1)} \cos\left(\frac{{pos}}{{10000^{2i/d_{\text{model}}}}}\right) PE(pos,2i1)​cos(100002i/dmodel​pos​) 其中 p o s pos pos表示输入序列中的位置 i i i表示位置编码中的维度索引 d model d_{\text{model}} dmodel​表示Transformer模型的隐藏单元大小。 您可能想知道正弦和余弦的这种组合如何表示位置 / 顺序其实很简单假设你想用二进制格式来表示一个数字会怎样可以发现不同位之间的变化在每个数字上交替第二低位在每两个数字上轮换依此类推。但在浮点数世界中使用二进制值会浪费空间。因此我们可以使用它们的浮点连续对应物 - 正弦函数。事实上它们相当于交替位。 这个公式中的分数部分将位置 p o s pos pos进行了缩放并使用不同的频率 1000 0 2 i / d model 10000^{2i/d_{\text{model}}} 100002i/dmodel​来控制不同维度的变化速度。这样不同位置和不同维度的位置编码会得到不同的数值形成一个独特的向量表示 正弦位置编码的另一个特点是它允许模型毫不费力地关注相对位置。以下是原论文的引用 We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset k, PEposk can be represented as a linear function of PEpos. https://kazemnejad.com/blog/transformer_architecture_positional_encoding/ 这篇文章就很好的讲解了这是因为其实这个添加的位置offset可以通过PEpos本身dot product 一个矩阵M得到对应offset后的结果PEposk相当于线性变换独立于时间变量t) 总结来看位置编码器采用正弦和余弦函数的函数形式是为了满足一些重要特性以便在Transformer模型中有效地表示位置信息。 周期性: 使用正弦和余弦函数能够使位置编码具有周期性。使得位置编码的值在每个维度上循环变化。这对于表示序列中的不同位置非常重要因为不同位置之间可能存在重要的依赖关系。连续性: 正弦和余弦函数在输入空间中是连续的。这意味着相邻位置之间的位置编码也是连续的有助于保持输入序列中的顺序信息的连贯性。维度关联: 位置编码中的维度与Transformer模型的隐藏单元大小相关联。这意味着不同维度的位置编码会以不同的频率变化从而能够捕捉不同尺度的位置信息。较低维度的位置编码可以更好地表示较短距离的依赖关系而较高维度的位置编码可以更好地表示较长距离的依赖关系。 到这里如果还有什么疑问欢迎私信博主问题哦博主会尽自己能力为你解答疑惑的如果对你有帮助你的赞是对博主最大的支持

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/86142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重庆做网站做得好的公司网站建设提案ppt

c#统计字符串中数字字符的个数 题目描述 假设有一个GetNumber方法(参数为字符串strSource),编写一个静态方法可以用来统计字符串strSource中数字字符的个数。 输入 输入一个字符串strSource输出 strSource字符串中数字字符的个数样例输入 s…

设计网站推荐原因外贸网站推广技巧

题目描述:给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a b c 0 请你找出所有和为 0 且不重复的三元组。 注意:答案中不可以包含重复的三元组。 输入:nums …

芜湖建设工程质量监督站网站河南省建设厅职称网站

第六节,我们使用结核病基因数据,做了一个数据预处理的实操案例。例子中结核类型,包括结核,潜隐进展,对照和潜隐,四个类别。第七节延续上个数据,进行了差异分析。 第八节对差异基因进行富集分析。…

专业做商铺的网站软文关键词排名推广

系统开发环境以及版本 操作系统: Windows_7集成开发工具: Eclipse EE_4.7编译环境:JDK_1.8Web服务器:Tomcat_9.0数据库:MySQL_5.7.23 系统框架 spring框架springmvc框架mybatis框架Logback日志框架安全验证框架maven框…

银行收取网站建设费的会计科目找合伙做网站的

竞赛无人机搭积木式编程(四) ---2023年TI电赛G题空地协同智能消防系统(无人机部分) 无名小哥 2023年9月15日 赛题分析与解题思路综述 飞控用户在学习了TI电赛往届真题开源方案以及用户自定义航点自动飞行功能方案讲解后&#x…

企业网站建设对网络营销有哪些影响站长平台怎么添加网站

文章目录 一、漏洞原因二、漏洞利用1、任意用户注册2、成功进入后台3、越权查看其他用户的仓库源代码4、发现源代码仓库泄漏5、通讯录的地方,发现账号泄漏泄漏三、漏洞进一步利用四、总结五、免责声明一、漏洞原因 可以任意注册账号通过越权,查看其他用户仓库内的源代码造成源…

网站收录提交接口包装设计招聘

从历史上讲,很难对安全的EJB进行测试。 到目前为止,我一直在使用诸如用Arquillian 在WildFly 8.1.x上测试安全的EJB文章中描述的JBossLoginContextFactory等专有技术来测试安全的EJB。 在本年度Devoxx中 , Apache TomEE项目(轻量…

广网站建设钓鱼网站的危害

今年互联网行业陆续裁员减薪,许多人怨声载道的同时也开始另谋出路。而对于程序员更是应该提早做好准备,活跃在兼职接单的最前沿。 我们程序员是一门技术工种,与互联网其他行业相比薪水会相对高一点,不过钱也不是那么好赚的&#…

苏州知名高端网站建设公司昆明网站开发正规培训

文章目录 1.创建字符串2.追加字符串3.替换字符串4.删除字符串5.插入字符串6.字符串反转7.其他操作 在 Java 中字符串不属于基本数据类型,而是对象。Java 提供了 String 类来创建和操作字符串,但String 类是不可变类,一旦一个 String 对象被创…

政务网站建设原则关于制作网站收费标准

在本文中,我们将探讨如何在 .NET Core 应用程序中将日志消息输出到控制台,从而更好地了解应用程序的运行状况。 .NET Core 实现日志打印输出在控制台应用程序中 在 .NET Core 中,日志输出打印是使用 Microsoft.Extensions.Logging 命名空间…

网站数据统计怎么做注册城乡规划师考试教材

网站需求: 1.基于域名[www.openlab.com]可以访问网站内容为 welcome to openlab!!! 2.给该公司创建三个子界面分别显示学生信息,教学资料和缴费网站,基于[www.openlab.com/student] 网站访问学生信息 [www.openlab.com/data]网站访问教学资…

深圳网站建设服务公司网页设计架构

2019独角兽企业重金招聘Python工程师标准>>> 看着简单而又复杂的pom.xml文件,看似熟悉,当自己编写的时候觉得简单,但是看人家项目的时候又觉得复杂的很,现在我们一起来分析这个pom文件。 Maven的坐标为各种构件引入了秩…

网站都是用什么编写的湖南湘潭网站建设

1.数据切分概念 数据的切分[(Sharding)]根据其切分规则的类型,可以分为两种切分模式。一种是按照不同的表(或者Schema)来切分到不同的数据库(主机))之上,这种切可以称之为数据的垂直…

河北秦皇岛建设局网站网站建设可行性分析包括什么

博主前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住也分享一下给大家 👉点击跳转到教程 Android OkHttp源码阅读详解一 看OkHttp源码,发现OkHttp里面使用了责任链设计模式,所以才要学习…

设计相关的网站招贴广告设计图片

在 Ubuntu 22.04 LTS 中,默认情况下不会自动启动 SSH 服务。如果你想通过 SSH 访问你的 Ubuntu 系统,你需要手动安装 SSH 服务器,并确保 22 端口(SSH 的默认端口)是开放的。以下是必要的步骤: 安装 SSH 服…

嘉兴网站建设品牌升级影响网站速度的因素

“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket。 ——有感于实际编程和开源项目研究。 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览网页时&#xff…

做网络课程的网站罗村网站建设

IP-tools 网管员的第三只眼^ Ip-tools是一款功能齐全的网管软件,可以随时随地的向网管员报告网络的运行情况ip-tools自身集成多种tcp/ip使用工具,如本地信息、链接信息、端口扫描、ping、WHOIS、finger、nslookup、telnet、NetBIOS等功能。界面是全英的&…

遵义市住房城乡建设局网站网站分析seo情况

文章目录1. 题目2. 解题1. 题目 给你字符串 key 和 message ,分别表示一个加密密钥和一段加密消息。 解密 message 的步骤如下: 使用 key 中 26 个英文小写字母第一次出现的顺序作为替换表中的字母 顺序 。将替换表与普通英文字母表对齐,形…