找人做网站毕业设计企信网企业信用信息系统

news/2025/9/26 18:42:06/文章来源:
找人做网站毕业设计,企信网企业信用信息系统,wordpress分页链接设置,wordpress 列表页面1.transformer的优化策略 1#xff09;GQA#xff0c;减少推理过程中的KV缓存大小#xff0c;增加上下文长度#xff08;KV 缓存#xff08;即 Key-Value 缓存#xff09;用于加速 Transformer 模型在推理过程中处理长序列时的计算。要减少 KV 缓存的大小#xff09; 2GQA减少推理过程中的KV缓存大小增加上下文长度KV 缓存即 Key-Value 缓存用于加速 Transformer 模型在推理过程中处理长序列时的计算。要减少 KV 缓存的大小 2投机采样小马拉大车小模型推理大模型进行验证 3RWKV对attention进行魔改通过将Q,K,V之间的耦合关系转换为K,V之间的关联从而实现快速计算引入RNN的结果通过将当前时刻和前一时刻进行甲醛形成一个类似于RNN的结构从而实现速度的提升 4infini-transformer谷歌提出的infini-transformer框架,该框架在分段的基础上引入了历史信息,以提高上下文支持。同时,视频还介绍了硬件加速技术RAIN attention,通过分组和改进注意力计算方式实现了更高的并行度和效率。最后视频提到了将长序列拆分成块并自己计算注意力的方法,以进一步提高效率 5flash attention 和RAIN attention差不多但用的是硬件结构进行计算和减少存储量 2.transformer模型的基本原理 1由多注意力机制attention的作用是获取上下文信息和一个FNN前馈神经网络组成FNN位于每个Transformer层中的多头自注意力机制之后。FNN通常由两个全连接层也称为线性层和一个激活函数通常是ReLU组成用来存储知识 2利用了resnet的模式是一种深度神经网络结构用于解决深层网络中的梯度消失和梯度爆炸问题。其核心思想是引入残差连接residual connections允许信息绕过一个或多个层的直接路径从而促进梯度的反向传播。具体来说ResNet中的每一层输出不是简单的层输出而是层输出加上输入的和解决了快速收敛和梯度问题 3有encode和decode两种模式前者可以看到去拿不信息后者可以看到部分信息Transformer模型由编码器Encoder和解码器Decoder组成两者共同用于序列到序列的任务如机器翻译。每个编码器和解码器都包含多个层结构相似但功能不同。输入序列 - 编码器 - 编码表示编码表示, 目标序列的一部分 - 解码器 - 输出序列 4红色模块用于信息融合非必须广泛用于多模态机器翻译等场景 3.transformer模型BN和LN的区别 1都是对数据进行正规化将输入数据归一至正态分布加速收敛提高训练的稳定性 2BN一个batch的向量同一纬度的数据做正规化缺点是变长数据无法处理语义数据无法处理所以有了LN 3LN序列向量中不同时刻的向量做正规化 4.preNorm和postNorm的区别 1位置不同 Pre-NormLayer Normalization在子层之前。 Post-NormLayer Normalization在子层之后。 2训练稳定性 Pre-Norm在训练早期更稳定因为规范化在每个子层之前进行防止梯度爆炸或消失问题。 Post-Norm在训练早期可能不如pre-norm稳定但在训练中后期模型性能通常更好。 3性能差异 Pre-Norm由于规范化在子层之前进行可能导致信息在层与层之间传播得更有效收敛更快。 Post-Norm虽然在训练早期可能收敛较慢但在模型训练后期通常能达到更好的性能。 4应用场景 Pre-Norm在一些更深的网络或初期训练更困难的模型中预规范化可以提供更稳定的梯度防止训练过程中的数值问题。 Post-Norm在更浅的网络或训练过程较为平稳的模型中后规范化通常能够取得更好的最终性能。 5.多抽头、self-attention中使用QKV三个不同矩阵的原因,以及其原理和作用 1使用Q、K、V三个不同矩阵的主要原因包括 丰富表达能力通过不同的线性变换可以捕捉输入序列中的不同特征和关系从而使模型具有更丰富的表达能力。 提高注意力计算的灵活性将输入映射到不同的空间可以更灵活地计算注意力权重从而提高模型对上下文的理解能力。 多头机制的实现通过多个头多个不同的Q、K、V矩阵可以并行地处理输入数据从不同角度进行注意力计算从而增强模型的稳定性和泛化能力。 2自注意力机制通过计算序列中每个位置与其他位置之间的相关性注意力权重来捕捉输入序列中的依赖关系。 3多头注意力机制通过并行地计算多个自注意力 具体步骤 输入嵌入输入序列通过嵌入层Embedding Layer得到向量表示  线性变换使用三个线性变换矩阵 Q,K,V将输入序列转换为查询、键和值矩阵 Q、K 和V。 计算注意力权重通过点积计算查询和键之间的相似度然后使用Softmax函数归一化得到注意力权重。 加权求和使用注意力权重对值矩阵进行加权求和得到输出表示。 多头注意力并行计算多个自注意力然后将它们的输出拼接起来通过线性变换得到最终的输出。AI学习必备【transformer模型优化策略】 如何解决transformer模型时间复杂度过高问题面试中如何回答transformer原理大模型开发_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918679.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

430亿美元押注英国,Salesforce 加码 AI 投资

近日,英国与多家美国科技公司签署 “科技繁荣协议(Tech Prosperity Deal)”,宣布未来将有 430 亿美元 投入英国人工智能领域,目标是把英国打造为全球 AI 超级大国。 这笔投资是在此前 440 亿美元承诺的基础上再次…

C# 中 ref 和 out 的学习笔记

一句话搞懂区别​ref​:传进去的时候​必须有值,方法里可以改它,改完外面也能看到。 ​out​:传进去的时候​不用有值​(甚至不能有值),方法里​必须给它赋值,赋完值外面就能用。为什么需要它们? C# 默认是“…

NXP - 在MCUXpresso IDE中编译调试Smoothieware固件工程 - 思路 - 教程

NXP - 在MCUXpresso IDE中编译调试Smoothieware固件工程 - 思路 - 教程2025-09-26 18:37 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: aut…

C# 序列化三种方式

序列化是啥? 就是把一个 C# 对象(比如 Person、Order)变成一串能存文件、能发网络的“字符串”或“字节”。 反序列化就是反过来,把这串东西变回对象。 为啥要干这事?存到文件(比如保存游戏进度) 发给别的程序(…

网站标题一样高端品牌运动鞋

目录 一.简介 二.常用接口 三.实战演练 1.径向渐变 2.QSS贴图 3.开关效果 4.非互斥 一.简介 QRadioButton控件提供了一个带有文本标签的单选按钮。 QRadioButton是一个可以切换选中(checked)或未选中(unchecked)状态的选项…

织梦网站添加视频教程莱芜新闻电视台节目表

目录 1、divmod函数: 1-1、Python: 1-2、VBA: 2、相关文章: 个人主页:非风V非雨-CSDN博客 divmod函数在Python中具有广泛的应用场景,特别是在需要同时处理除法的商和余数的情况下。常见的应用场景有&a…

VMware+RockyLinux+ikuai+docker+cri-docker+k8s 自用 实践笔记(一) - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

区别:Modbus RTU 和 Modbus TCP

区别:Modbus RTU 和 Modbus TCP Modbus RTU 常用函数,如下://打印数组数据 static void printArray(const QString& title, qint64 dataLen, const uint8_t* data) {QString strPrint;for (int i = 0; i < d…

记录安装机器/深度学习环境(conda、CUDA、pytorch)时的一些问题

1. 正确查看自己的CUDA版本CUDA分为两种,驱动API和运行API。 驱动API指的是显卡驱动支持的最高cuda版本,我们运行程序时用的是运行API。nvidia-smi显示的是驱动所能支持的最大运行API版本。 nvcc --version查看的是C…

详细介绍:大数据毕业设计选题推荐:基于Hadoop+Spark的全球能源消耗数据分析与可视化系统

详细介绍:大数据毕业设计选题推荐:基于Hadoop+Spark的全球能源消耗数据分析与可视化系统pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importa…

5G车载市场新格局:国产崛起,从破局者到引领者的升维之战 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

python组合类型和组合可空类型

python组合类型和组合可空类型 漫思

深入解析:自动化接口框架搭建分享-pytest

深入解析:自动化接口框架搭建分享-pytestpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

手撕深度学习之CUDA并行规约算法(上篇):硬核揭秘200%性能提升的GPU优化之道,从硬件特性到算法实现的完整进阶指南

本文为CUDA并行规约系列文章的上篇,本系列将会介绍CUDA编程的一些基础软硬件知识,然后给出7种规约算法的实现,并从硬件的角度对它们进行分析和优化,最终给出一个开箱即用的模板代码。 本文主要介绍了CUDA编程的基础…

网络运营者中国seo第一人

1、ORACLE快速遍历树 2、join基表很大&#xff0c;性能问题 转载于:https://www.cnblogs.com/stevenlii/p/8631708.html

实战需求分析

需求获取的方法 1.制作调查问卷 2.单据分析(单据时客户填写的纸质单据) 3.报表分析(报表时客户对产品的反应的各种数据的整理) 如何分析报表:使用常识判断、听客户讲解、研习客户文档、研习电子表格公式

完整教程:实战:基于 BRPC+Etcd 打造轻量级 RPC 服务——高级特性与生产环境深度实践

完整教程:实战:基于 BRPC+Etcd 打造轻量级 RPC 服务——高级特性与生产环境深度实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; …

哪里可以做网站优化网站怎么做配置文件夹

首先我们需要下载ssh&#xff0c;因为我们没有安装 sshd 命令意思是开启ssh 下载完以后要设置密码&#xff0c;我设置得是 123456 开启服务&#xff0c;查看ip 电脑连接 ssh 刚刚得ip -p 8022 后面就连接上了 我可以在这里启动我手机上的vnc

广州网站建设 seo怎么用ps做网站上的产品图

概述 实现规范化、标准化的引导式设计&#xff0c;以业务需求为输入&#xff0c;识别业务特点&#xff0c;并通过引导式设计&#xff0c;找到最适合的设计模式、具体方案&#xff0c;汇总成为应用的设计&#xff0c;拉齐各应用的设计一的致性。 采用标准化的方式开展设计…

数学草稿

P13645 Totient with Divisors \[\begin{aligned} \sum_{i=1}^n\sum_{j=1}^m\varphi(i)\varphi(j)\sigma(ij)&=\sum_{i=1}^n\sum_{j=1}^m\varphi(i)\varphi(j)\sum_{a|i}\sum_{b|j}\frac{ib}{a}\times[a\perp b]\\…