网站推广设计制作专做女装拿货的网站

news/2025/10/4 20:13:10/文章来源:
网站推广设计制作,专做女装拿货的网站,企业网站备案流程,wordpress博客主机目录 1、向量点乘 2、相似度计算举例 3、QKV分析 4、整体流程 (1) 首先从词向量到Q、K、V (2) 计算Q*#xff08;K的转置#xff09;#xff0c;并归一化之后进行softmax (3) 使用刚得到的权重矩阵#xff0c;与V相乘#xff0c;计算加权求和。 5、多头注意力 上面… 目录 1、向量点乘 2、相似度计算举例 3、QKV分析 4、整体流程 (1) 首先从词向量到Q、K、V (2) 计算Q*K的转置并归一化之后进行softmax (3) 使用刚得到的权重矩阵与V相乘计算加权求和。 5、多头注意力 上面这个transformer中的注意力公式相信大家不会陌生。公式并不复杂但是why? 为什么是这个公式为什么大家都说QKV代表Query查询、Key键和Value值 之前了解transformer的时候对于QKV的设定感到很奇怪后来慢慢接受了这个设定今天记录一下自己的理解。 1、向量点乘 首先从向量点乘说起是用于计算两个向量的相似度。 图中可以看到如果两个向量的方向相同或相近它们的点乘结果会很大表示这两个向量相似度高。相反如果向量方向相反点乘结果会很小或为负值。 向量x和向量y点乘表示向量x在向量y上的投影再乘以向量y。反应两个向量的相似度。 假设矩阵X由n个行向量组成每个行向量xi代表一个词的词向量整个矩阵由这些词向量组成。简而言之矩阵X是一个词向量矩阵每个元素都是一个词的向量表示。 具体来说矩阵X是一个n×n的方形矩阵其中包含n个行向量n个词的向量。 当矩阵X与它的转置XT进行乘法运算时得到的是目标矩阵XXT。这个目标矩阵的每一个元素是通过矩阵X中的行向量与列向量的点乘得到的。如下图所示 例如目标矩阵XXT中的第一行第一列元素X0​⋅X0​实际上是向量X0​与自身做点乘这表示的是向量X0​与自身的相似度也就是它自身的模的平方。 同样地第一行第二列元素X0​⋅X1​表示的是向量X0​与向量X1​之间的相似度即它们之间的点乘结果。 这个过程可以推广到矩阵X的所有行和列从而得到整个XXT矩阵其中每个元素都表示了对应向量之间的相似度。 2、相似度计算举例 下面以词向量矩阵为例这个矩阵中每行为一个词的词向量。矩阵与自身的转置相乘生成了目标矩阵目标矩阵其实就是一个词的词向量与各个词的词向量的相似度。 最终的矩阵数值代表了词向量之间的相似度。 我们为什么要求相似度是为了合理分配权重。这个时候可以加上softmax 对上述得到的相似度矩阵应用Softmax函数进行归一化处理。Softmax函数将每个元素转换成一个概率分布使得每个元素的值都在0到1之间并且所有元素的和为1。 这样每个词向量与其他所有词向量的相似度都被转换成了一个概率权重。 接下来将这个权重矩阵与原始的词向量矩阵 X 相乘。这个过程可以看作是每个词向量根据其权重与其他所有词向量进行加权求和。 权重矩阵中某一行分别与词向量的一列相乘词向量矩阵的一列其实代表着不同词的某一维度。经过这样一个矩阵相乘相当于一个加权求和的过程得到结果词向量是经过加权求和之后的新表示。 这个新词向量综合了输入词向量矩阵中所有词的信息权重由它们之间的相似度决定。 3、QKV分析 注意力Attention机制的最核心的公式为 与 很相似。 QKV的由来可以用图片演示为 这些乘法操作是线性变换它们将输入矩阵 X 映射到不同的表示空间为注意力机制的计算提供基础。 注意力机制不直接使用原始的输入矩阵 X而是使用经过这三个权重矩阵变换后的Q、K、V。因为使用三个可训练的参数矩阵可增强模型的拟合能力。 在上面这张论文中关于注意力的原图中包含了我们之前所解释的过程可以看到输入的是QKV也就是真正输入到注意力的是这三个矩阵。流程解释如下 Mask是机器翻译等自然语言处理任务中经常使用的方法。在机器翻译等NLP场景中每个样本句子的长短不同对于句子结束之后的位置无需参与相似度的计算比如后面补充的数据都为0否则影响Softmax的计算结果。 4、整体流程 利用流程图重新整理一下整体的流程。 (1) 首先从词向量到Q、K、V ​ (2) 计算Q*K的转置并归一化之后进行softmax ​ (3) 使用刚得到的权重矩阵与V相乘计算加权求和。 ​ 5、多头注意力 为了增强拟合性能Transformer对Attention继续扩展提出了多头注意力Multiple Head Attention。如下图 ​ 其实就是重复之前的步骤如下图 ​ 定义多组可训练的参数矩阵生成多组Q、K、V。 比如我们定义8组参数同样的输入X最终会得到8个不同的输出从Z0-Z7。 ​ 在输出到下一层前需要将8个输出拼接到一起乘以矩阵WO, 将维度降低回我们想要的维度。 ​ 输入的X是2行4列QKV是2行3列经过QKT得到2行2列再乘以V得到2行3列的Z8个Z拼接成2行24列的矩阵通过乘以一个24行4列的矩阵WO可以变回X的2行4列之后继续输入到下一层。 当前为后续层时即不是第一层的编码器输入数据不再是原始文本而是上一层编码器的输出。这意味着每一层都会接收前一层的输出作为自己的输入。  6、个人理解如有不对还请指正 其实大家常说的Q 是QueryK 是KeyV 是Value并非一定就是以我们主观上理解的逻辑。更多的是为transformer的有效性找到合理的解释我个人理解为transformer的设计是empirical那些解释是由果推因。 多头注意力机制为模型提供了一种并行处理信息的能力允许它同时在多个表示子空间中捕捉数据的特征。这种设计不仅拓宽了模型的感知范围而且使其能够在不同的潜在特征空间中探索更为丰富的信息维度。 这些特征空间中蕴含的信息可能超出了人类直观理解的范畴但正是这些难以捉摸的特征为模型提供了更深层次的数据理解能力从而在各种任务中展现出卓越的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/927507.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深圳建设银行宝安支行网站市场营销在线课程

1. JVM快速入门 从面试开始: 请谈谈你对JVM 的理解?java8 的虚拟机有什么更新? 什么是OOM ?什么是StackOverflowError?有哪些方法分析? JVM 的常用参数调优你知道哪些? 内存快照抓取和MAT分…

coduck模拟赛一 补题报告 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems

1.知识图谱嵌入的基本过程,为什么难以直观有效表达项目间的关系 1.1基本过程(知识图谱嵌入)构建三元组: 将知识图谱表示为(头实体h, 关系r, 尾实体t)集合。向量化建模: 为每个实体、关系分配可学习的向量/矩阵,常见…

特地拎出来的总结

这篇总结不太一样,为了纪念和我爸喋喋不休吵了近3h的时间和教训,用Deepseek共同完成 : 题目 T674176 T2-任务task 题目描述 时间限制: 2.0 秒 空间限制: 512 MiB 有 \(n\) 个任务,第 \(i\) 个任务需要占据 \([l_…

在线做漫画的网站wordpress多用户评论

文献计量学是指用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。特别是,信息可视化技术手段和方法的运用,可直观的展示主题的研究发展历程、研究现状、研究…

漏洞赏金计划的困境:i915漏洞与ChromeOS、Intel赏金项目剖析

本文深入探讨了漏洞赏金计划存在的系统性问题,通过作者亲身经历的i915驱动漏洞案例,揭示了Google和Intel在处理安全漏洞报告过程中的沟通不畅、缺乏透明度等问题,并分析了漏洞赏金计划中权力失衡的根本原因。漏洞赏…

wordpress站名在哪改项目协同管理平台

在 Unix 环境下," 寄存器需要 xterm-clipboard feature 的 VIM 软件才能使用,具有这个 feature 的 VIM 可以安装 vim-gtk(包含gvim和vim),使用 gvim 可以正常调用 " 寄存器。

2025异型件厂家推荐:邯郸市烁燊紧固件,广泛应用于建筑、桥梁、机械、电力、交通等诸多领域

在现代工业体系中,异型件作为关键基础零部件,广泛应用于建筑、桥梁、机械、电力、交通等诸多领域。随着各行业的快速发展,对异型件的质量、性能和精度等方面提出了更高的要求。在这样的背景下,邯郸市烁燊紧固件有限…

C++设计模式之行为型模式:解释器模式(Interpreter) - 详解

C++设计模式之行为型模式:解释器模式(Interpreter) - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Cons…

免费的小程序模板网站做网站服务公司

一、 搜索算法 深度优先搜索和广度优先搜索是最暴力的图的搜索算法。算法的目标是,给定一张图,一对初始和终止节点,找到两节点之间的节点路径。(代码均是找到两个节点之间的路径) 广度优先搜索是一层一层搜索&#xf…

中国最大网站建设商网站生成器怎么做

python绑定项目 官方未提供python的封装绑定,直接调用执行文件 https://github.com/stlukey/whispercpp.py提供了源码和Cpython结合的绑定 https://github.com/zhujun1980/whispercpp_py提供了ctype方式的绑定,需要先make libwhisper.so Pybind11 bi…

dede视频网站宣城市住房和城乡建设局网站首页

关注公号【逆向通信猿】更精彩!!! 1. 构造编码器对象 采用MATLAB内置的comm.LDPCEncoder构造编码器对象,其中使用默认的校验矩阵,信息位长32400比特,码长64800比特,该校验矩阵中除第一行中1的个数为6个外,其余行中1的个数均为7;前12960列中1的个数为8,后32400列构成…

如何备份一个网站广西住建局

1. C/C++ IDE 安装Clion Nova和VsCode 2. 编译器 2.1 g++ 当程序比较小时,安装g++编译器进行编译,常用命令如下: // 安装g++ sudo apt-get install g++ // 默认生成a.out的可执行文件 g++ main.cpp // 生成其他名字的可执行文件 g++ main.cpp -o exe_name2.2 cmake 当…

网站开发一次性费用网站建设公司发展方向及趋势

2020年9月10日,亚马逊通技术服务(北京)有限公司(AWS中国)与毕马威企业咨询(中国)有限公司(毕马威中国)宣布已签署战略合作协议。 双方将充分利用各自的全球品牌影响力和资…

深入解析:PostgreSQL向量检索:pgvector入门指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

网贷之家网站建设你访问的网站正在建设

以上问题在编译器中出现可以在编译器中最上面加入: #define_CRT_SECURE_NO_WARNINGS 或者将scanf修改为scanf_s 一定要在最上端!!!最上端!!!最上端加入!!! 虽…

Allow or block media autoplay in Firefox

https://support.mozilla.org/en-US/kb/block-autoplay

寺庙网站开发文案wordpress免费主题插件下载

前文:最近跟着DataWhale组队学习这一期“Sora原理与技术实战”,本篇博客主要是基于DataWhale成员、厦门大学平潭研究院杨知铮研究员分享的Sora技术原理详解课件内容以及参考网上一些博客资料整理而来(详见文末参考文献)&#xff0…

[WC2018] 即时战略

[WC2018] 即时战略分享一下全局平衡二叉树的做法。 先讲下部分分。 \(n\le 100,T\le 10000\) 从 \(1\) 开始 DFS,对于当前 \(u\),枚举点 \(v\),如果 \(\text{explore}(u,v)\) 不为 \(fa_u\),则 \(v\) 为 \(u\) 子结…

商城网站源码大全微网站建站

怎么解决java导出excel时文件名乱码发布时间:2020-06-19 16:59:00来源:亿速云阅读:137作者:元一java解决导出Excel时文件名乱码的方法示例:String agent request.getHeader("USER-AGENT").toLowerCase();re…