做电脑网站用什么软件好用吗三台网站seo

news/2025/9/23 6:11:08/文章来源:
做电脑网站用什么软件好用吗,三台网站seo,wordpress 工具插件,东莞阳性最新消息1、 多头注意力层 下图展示了Transformer模型中的编码器和解码器。我们可以看到#xff0c;每个解码器中的多头注意力层都有两个输入#xff1a;一个来自带掩码的多头注意力层#xff0c;另一个是编码器输出的特征值。 让我们用R来表示编码器输出的特征值#xff0c;用M来…1、 多头注意力层 下图展示了Transformer模型中的编码器和解码器。我们可以看到每个解码器中的多头注意力层都有两个输入一个来自带掩码的多头注意力层另一个是编码器输出的特征值。 让我们用R来表示编码器输出的特征值用M来表示由带掩码的多头注意力层输出的注意力矩阵。由于涉及编码器与解码器的交互因此这一层也被称为编码器−解码器注意力层。 让我们详细了解该层究竟是如何工作的。多头注意力机制的第1步是创建查询矩阵、键矩阵和值矩阵。我们已知可以通过将输入矩阵乘以权重矩阵来创建查询矩阵、键矩阵和值矩阵。但在这一层我们有两个输入矩阵一个是R编码器输出的特征值另一个是M前一个子层的注意力矩阵。应该使用哪一个呢 答案是我们使用从上一个子层获得的注意力矩阵M创建查询矩阵Q使用编码器输出的特征值R创建键矩阵和值矩阵。由于采用多头注意力机制因此对于头 i i i需做如下处理。 查询矩阵Q通过将注意力矩阵M乘以权重矩阵 W i Q W_i^Q WiQ​来创建。键矩阵和值矩阵通过将编码器输出的特征值R分别与权重矩阵 W i K W_i^K WiK​、 W i V W_i^V WiV​相乘来创建如图所示。 为什么要用M计算查询矩阵而用R 计算键矩阵和值矩阵呢因为查询矩阵是从M求得的所以本质上包含了目标句的特征。键矩阵和值矩阵则含有原句的特征因为它们是用R计算的。为了进一步理解让我们来逐步计算。 第1步是计算查询矩阵与键矩阵的点积。查询矩阵和键矩阵如下图所示。需要注意的是这里使用的数值是随机的只是为了方便理解. 查询矩阵与键矩阵的点积结果 通过观察图矩阵 Q i ⋅ K i T Q_i·K_i^T Qi​⋅KiT​我们可以得出以下几点。 从矩阵的第1行可以看出其正在计算查询向量 q 1 q_1 q1​(sos)与所有键向量 k 1 k_1 k1​(I)、 k 2 k_2 k2​(am)和 k 3 k_3 k3​(good)的点积。因此第1行表示目标词sos与原句中所有的词I、am和good的相似度。同理从矩阵的第2行可以看出其正在计算查询向量 q 2 q_2 q2​(Je)与所有键向量 k 1 k_1 k1​(I)、 k 2 k_2 k2​(am)和 k 3 k_3 k3​(good)的点积。因此第2行表示目标词Je与原句中所有的词I、am和good的相似度。同样的道理也适用于其他所有行。通过计算 Q i ⋅ K i T Q_i·K_i^T Qi​⋅KiT​可以得出查询矩阵目标句特征与键矩阵原句特征的相似度。 计算多头注意力矩阵的下一步是将 Q i ⋅ K i T Q_i·K_i^T Qi​⋅KiT​除以 d k \sqrt{d_k} dk​ ​然后应用softmax函数得到分数矩阵 s o f t m a x ( Q i ⋅ K i T d k ) softmax(\frac{Q_i·K_i^T}{\sqrt{d_k}}) softmax(dk​ ​Qi​⋅KiT​​)。 接下来我们将分数矩阵乘以值矩阵 V i V_i Vi​得到 s o f t m a x ( Q i ⋅ K i T d k ) V i softmax(\frac{Q_i·K_i^T}{\sqrt{d_k}})V_i softmax(dk​ ​Qi​⋅KiT​​)Vi​即注意力矩阵 Z i Z_i Zi​如图所示。 假设计算结果如图 目标句的注意力矩阵 Z i Z_i Zi​是通过分数加权的值向量之和计算的。为了进一步理解让我们看看Je这个词的自注意力值 Z 2 Z_2 Z2​是如何计算的如图 Je的自注意力值 Z 2 Z_2 Z2​是通过分数加权的值向量之和求得的。因此 Z 2 Z_2 Z2​的值将包含98%的值向量 v 1 v_1 v1​(I)和2%的值向量 v 2 v_2 v2​(am)。这个结果可以帮助模型理解目标词Je指代的是原词I。 同样我们可以计算出h个注意力矩阵将它们串联起来。然后将结果乘以一个新的权重矩阵 W 0 W_0 W0​得出最终的注意力矩阵如下所示。 M u l t i − h e a d a t t e n t i o n C o n c a t e n a t e ( Z 1 , Z 2 , … … , Z h ) W 0 Multi - head attention Concatenate(Z_1, Z_2,……,Z_h)W_0 Multi−headattentionConcatenate(Z1​,Z2​,……,Zh​)W0​ 将最终的注意力矩阵送入解码器的下一个子层即前馈网络层。 2 、前馈网络层 解码器的下一个子层是前馈网络层如图所示 解码器的前馈网络层的工作原理与我们在编码器中学到的完全相同因此这里不再赘述。下面来看叠加和归一组件。 3、 叠加和归一组件 和在编码器部分学到的一样叠加和归一组件连接子层的输入和输出如图所示。 4、 线性层和softmax层 一旦解码器学习了目标句的特征我们就将顶层解码器的输出送入线性层和softmax层如图 线性层将生成一个logit向量【logit向量是指BERT模型在soft Max激活函数之前输出的概率分布】其大小等于原句中的词汇量。假设原句只由以下3个词组成 v o c a b u l a r y b i e n , J e , v a i s vocabulary {bien, Je , vais} vocabularybien,Je,vais 那么线性层返回的logit向量的大小将为3。接下来使用softmax函数将logit向量转换成概率然后解码器将输出具有高概率值的词的索引值。让我们通过一个示例来理解这一过程。 假设解码器的输入词是sos和Je。基于输入词解码器需要预测目标句中的下一个词。然后我们把顶层解码器的输出送入线性层。线性层生成logit向量其大小等于原句中的词汇量。假设线性层返回如下logit向量 l o g i t [ 45 , 40 , 49 ] logit [45, 40, 49] logit[45,40,49] 最后将softmax函数应用于logit向量从而得到概率。 p r o b [ 0.018 , 0.000 , 0.981 ] prob [0.018, 0.000, 0.981] prob[0.018,0.000,0.981] 从概率矩阵中我们可以看出索引2的概率最高。所以模型预测出的下一个词位于词汇表中索引2的位置。由于vais这个词位于索引2因此解码器预测目标句中的下一个词是vais。通过这种方式解码器依次预测目标句中的下一个词。 现在我们已经了解了解码器的所有组件。下面让我们把它们放在一起看看它们是如何作为一个整体工作的。 5、 解码器总览 下图显示了两个解码器。为了避免重复只有解码器1被展开说明。 通过图我们可以得出以下几点。 (1) 首先我们将解码器的输入转换为嵌入矩阵然后将位置编码加入其中并将其作为输入送入底层的解码器解码器1。 (2) 解码器收到输入并将其发送给带掩码的多头注意力层生成注意力矩阵[插图]。 (3) 然后将注意力矩阵[插图]和编码器输出的特征值[插图]作为多头注意力层编码器−解码器注意力层的输入并再次输出新的注意力矩阵。 (4) 把从多头注意力层得到的注意力矩阵作为输入送入前馈网络层。前馈网络层将注意力矩阵作为输入并将解码后的特征作为输出。 (5) 最后我们把从解码器1得到的输出作为输入将其送入解码器2。 (6) 解码器2进行同样的处理并输出目标句的特征。 我们可以将N个解码器层层堆叠起来。从最后的解码器得到的输出解码后的特征将是目标句的特征。接下来我们将目标句的特征送入线性层和softmax层通过概率得到预测的词。 现在我们已经详细了解了编码器和解码器的工作原理。让我们把编码器和解码器放在一起看看Transformer模型是如何整体运作的。 6、 整合编码器和解码器 下图完整地展示了带有编码器和解码器的Transformer架构。 在图1-63中 N × N × N×表示可以堆叠N个编码器和解码器。我们可以看到一旦输入句子原句编码器就会学习其特征并将特征发送给解码器而解码器又会生成输出句目标句。 7、 训练Transformer 我们可以通过最小化损失函数来训练Transformer网络。但是应该如何选择损失函数呢我们已经知道解码器预测的是词汇的概率分布并选择概率最高的词作为输出。所以我们需要让预测的概率分布和实际的概率分布之间的差异最小化。要做到这一点可以将损失函数定义为交叉熵损失函数。我们通过最小化损失函数来训练网络并使用Adam算法来优化训练过程。 另外需要注意为了防止过拟合我们可以将dropout方法应用于每个子层的输出以及嵌入和位置编码的总和。 以上我们详细学习了Transformer的工作原理。在后面我们将开始使用BERT。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/911557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样设置网站开发商和承建商的区别

软件架构(业务流程) 基于前端系统提供的硬件通信平台,后端系统以控制执行单元为核心,协同控制通信管理、驱动适配、存储单元等职能单元完成与前端系统的通信数据交互业务,在经历以下业务流程后,完成设备自适应通信业务功能。 1.外部设备通信前端系统 前端系统连接新的…

网站开发挣不挣钱wordpress像微博

作者 | Addo Zhang来源 | 云原生指北GitHub Actions 是一个功能强大、“免费” 的 CI(持续集成)工具。与之前介绍的 Tekton 类似,GitHub Actions 的核心也是 Pipeline as Code 也就是所谓的流水线即代码。二者不同的是,GitHub Act…

用什么建设网站自己怎么做入网站回收书报

要实现的内容&#xff1a;手写签名&#xff0c;协议内容。点击提交后&#xff1a;生成1张图片&#xff0c;有协议内容和签署日期和签署人。 实现的效果图如下&#xff1a; 1、签名页面 <template><view class"index"><u-navbar title"电子协议…

根据链接获取网站名称wordpress后台慢js

书接上回&#xff0c;经过连续两期使用人工神经网络对福彩3D进行预测&#xff0c;经过不断的调参优化&#xff0c;并及时总结规律&#xff0c;感觉还是有一定的信心提高七码的命中概率。 今天&#xff0c;咱们继续来验证&#xff0c;直接上今天的统计结果&#xff0c;首先&…

网站开发语言字典99作文网官网

好久没有上来了。也没有什么好说的。最近在做基于SVG开发的一个实时监测系统&#xff0c;感觉目前SVG性能还不是太好&#xff0c;客户端CPU不经意间就达到80%以上了。向老板提出辞职&#xff0c;不过老板没有同意&#xff0c;最终协商结果再做三个月&#xff0c;直到新人完全接…

网站开发的时间流程英文网站建设口碑好

文/张铎“机器人在2029年能够达到人类的水平”张铎(以下简称张)&#xff1a;在今年的CES大展上&#xff0c;我们看到了能从手掌上起飞的自拍无人机&#xff0c;电视的分辨率都出到了8K的清晰度&#xff0c;像在去年的CES上还是4K的&#xff0c;发展非常迅速&#xff0c;然后今年…

建设厅网站打不开建筑学专业大学世界排名

随着城市化进程的加快&#xff0c;公厕作为城市基础设施的重要组成部分&#xff0c;扮演着不可忽视的角色。然而&#xff0c;传统的公厕粗放型管理模式&#xff0c;已经无法满足市民日益增长的需求。为了提升公厕的管理和服务水平&#xff0c;智慧公厕应运而生。 什么是智慧公…

化州市住房和建设局网站西安优化官网公司

1 glog 使用 CMakeLists.txt 来组织和构建包含 glog 的项目是一个很好的选择。下面是一个如何使用 CMake 与 glog 的例子。 项目结构: ├── CMakeLists.txt └── main.cppCMakeLists.txt: cmake_minimum_required(VERSION 3.10) project(GlogExample)# 设置C++标准为C++11…

做网站 搞流量 赚广告费艺术字体在线生成器免费转换器

什么是 NPM npm之于Node,就像pip之于Python,gem之于Ruby,composer之于PHP。 npm是Node官方提供的包管理工具,他已经成了Node包的标准发布平台,用于Node包的发布、传播、依赖控制。npm提供了命令行工具,使你可以方便地下载、安装、升级、删除包,也可以让你作为开发者发布…

阿雷网站建设购物网站建设价格

一、Android 权限机制 安装时权限声明 权限机制说明 安装软件时弹出软件所需要申请的全部权限&#xff0c;如果用户认可软件申请的权限&#xff0c;就会继续安装软件&#xff1b;如果用户不认可所申请的权限&#xff0c;就可以拒绝安装。 实现方式 在 AndroidManifest.mxl …

网站死链检查随机置顶wordpress

24.3 分布式综合应用 1. 分布式事务1.1 分布式事务1.2 分布式事务方案1. 2pc2. 其他方案1.3 Seata分布式事务框架:基于2pc1. 简介2. 启动seata服务1.4 微服务事务案例分析1. 代码分析2. 基于Seata改造2. 分布式锁2.1 简介3. RabbitMQ应用

网站手机端怎么制作教程京津冀协同发展的首要任务有

随着UWA GOT Online采样的参数越来越多样化&#xff0c;为了提升开发者的使用体验&#xff0c;我们最新推出了三种预设数据采集方案&#xff1a;极简模式、CPU模式、内存模式。该更新旨在降低多数据采集对数据准确性的干扰&#xff0c;同时也为大家提供更精准且有针对性的数据指…

比较专业的建设网站的公司太钢建设公司官网

前言 本文很细&#xff0c;甚至有点墨迹&#xff0c;主要为了方便从来没用过 vmware 的新人&#xff0c;其实大部分步骤和正常安装虚拟机没有区别&#xff0c;详细贴图以方便大家对比细节 参考文章 感谢大佬们的无私分享 https://blog.csdn.net/qq_19731521/article/details…

西安做网站维护的公司python怎么学

在本文中&#xff0c;我们将为Speedment创建一个插件&#xff0c;该插件使用Gson生成序列化和反序列化逻辑&#xff0c;从而使其在数据库实体和JSON字符串之间进行映射非常容易。 这将有助于展示Speedment代码生成的可扩展性&#xff0c;同时探索Gson库的一些很酷的功能。 Spe…

重庆装修网站建设怎么在各个网站免费推广信息

文章目录 前期工作1. 设置GPU&#xff08;如果使用的是CPU可以忽略这步&#xff09;我的环境&#xff1a; 2. 导入数据3. 查看数据 二、数据预处理1. 加载数据2. 可视化数据3. 再次检查数据4. 配置数据集5. 归一化 三、构建VGG-19网络1. 官方模型&#xff08;已打包好&#xff…

做电商的网站动漫wordpress主题下载地址

目录 1. FPGA的基础 2. FPGA的工作原理 3. FPGA的优势 3.1 灵活性 3.2 快速开发周期 3.3 高性能 4. FPGA的应用领域 4.1 通信系统 4.2 图像处理 4.3 嵌入式系统 4.4 科学研究 5. FPGA的未来展望 1. FPGA的基础 FPGA&#xff0c;即现场可编程门阵列&#xff08;Fiel…

网站建设详细描述产品的是什么建设网站要多长时间

我们平常用python写些脚本可以方便我们的学习办公&#xff0c;但限制就是需要有python环境才能运行。 那能不能直接在没有python环境的电脑上运行我们的脚本呢&#xff1f; 当然可以&#xff0c;那就是直接把python脚本打包成exe可执行程序&#xff08;注针对win系统&#xf…

设计企业网站哪家好学做宝宝衣服网站好

ID是设计的时候所指定的ID。 ClientID是当这个控件生成到客户端页面时候&#xff0c;需要在客户端访问时候用的。 UniqueID是当需要参与服务端回传的时候用的。 备注&#xff1a;当控件是子控件的时候&#xff08;例如在用户控件中的Button&#xff09;&#xff0c;ClientID在H…

学做网站需要多少钱家乡ppt模板免费下载网站

【Miniconda】一文了解conda虚拟环境的作用 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&#x1f448; 希望得到您的订阅和支持~ &am…