外围网站怎么做防止网站扫描

web/2025/9/30 2:53:32/文章来源:
外围网站怎么做,防止网站扫描,早期经典网页游戏,网站开发用到什么技术自己在看面经中遇到的一些面试题#xff0c;结合自己和理解进行了一下整理。 transformer中求和与归一化中“求和”是什么意思#xff1f; 求和的意思就是残差层求和#xff0c;原本的等式为y H(x)转化为y x H(x)#xff0c;这样做的目的是防止网络层数的加深而造成的梯… 自己在看面经中遇到的一些面试题结合自己和理解进行了一下整理。 transformer中求和与归一化中“求和”是什么意思 求和的意思就是残差层求和原本的等式为y H(x)转化为y x H(x)这样做的目的是防止网络层数的加深而造成的梯度消失无法对前面网络的权重进行有效调整导致神经网络模型退化这种退化不是由过拟合造成的而是较深模型后面添加的不是恒等映射反而是一些非线性层。已经学习到较饱和的准确率或者当发现下层的误差变大时那么接下来的学习目标就转变为恒等映射的学习也就是使输入x近似于输出H(x)以保持在后面的层次中不会造成精度下降。 注意力机制中计算注意力分数时为什么会除以根号dk 这和softmax的求导有关softmax的计算公式exp(x1)/exp(x1)exp(x2)另pexp(x1)/exp(x1)exp(x2)那么softmax求导之后p*(1-p)当p趋近于1时softmax的导数就趋近于0。故除以根号dk的原因是为了避免softmax计算的结果过大造成偏导数为0。 多头注意力比单头注意力的好处 注意力的计算是并行进行的多头可以提高计算效率。并且多头可以捕获不同子空间内的特征。 transformer比起RNN的优势 RNN在传播的过程中会出现信息衰减而transformer当前词不管距离其他词多远其只有这个词与其他词的相关性有关。并且transformer的encode可以并行计算RNN不可以。 transformer为什么使用层归一化 当前值减均值/ 标准差。减小梯度消失和梯度爆炸的问题并提高网络的泛化性能。* 批量归一化是不同训练数据之间对单个神经元的归一化层归一化是单个训练数据对某一层所有神经元之间的归一化。 transformer中解码器的注意力与编码器的区别 decode中的自注意力是带掩码的不让decode看到后文。还有一个encode-decode注意力层这一层注意力层只有q来源于上一层decode单元的输出剩下的k、v都来源于encode最后一层的输出。 前馈层 两层relu激活函数一层全连接神经网络。 BERT的训练任务 1.在输入数据中选择15%用于预测这15%的数据中有80%被替换为mask10%的单词被替换为其他词10%的单词保持不变。2.上下段落匹配其中50%使用正确的上下句关系50%随机抽取一个句子拼在后面。 BERT的优缺点 1.预训练阶段会出现特殊的[MASK]字符而在下游任务中不会出现造成预训练和微调之间的不匹配。 2.每个batch只有15%的token会被预测所有收敛速度会比传统语言模型慢。 3.缺乏生成能力。 chatgpt的训练过程 1.SFT阶段有阶段微调使用问答对微调GPT3。这一阶段的损失是交叉熵。 2.RM奖励模型使用1的SFT模型收集每个问题的4-9个回答并对其进行人为排序。这一阶段使用的损失是排序损失函数排序高的回答的奖励值-排序低的回答的奖励值我们希望这个值越大越好。 3.PPO算法更新策略 LLAMA作出的改进 1.归一化又LN改为了RMS Norm。 2.SwiGLU替代ReLU。 3.旋转位置编码替代位置编码。 ChatGLM作出的改进 1.重新排列了层归一化和残差连接的顺序 2.用GeLU替。换ReLU激活函数 3.在结构和训练目标上兼容这三种预训练模型需要GLM中同时存在单向注意力和双向注意力当attention_mask为全1时为双向的attention当attention_mask为三角矩阵时为单向的attention。 4.使用P-tuning进行的微调。 ChatGLM的训练任务 1.文档级别的预测/生成从文档中随机采样一个文本片段进行掩码片段的长度为文档长度的50%-100%。 2.句子级别的预测/生成从文档中随机掩码若干文本片段每个文本片段必须为完整的句子被掩码的词数量为整个文档长度的15%。 既保证了模型的自编码能力又有自回归能力。 Baichuan作出的改进 1.RoPE位置编码 2.RMSNorm归一化 3.SwiGLU激活函数 4.1.2万亿训练数据/上下文窗口4096 参数微调的方法 1.Adapter Tuning将其嵌入Transformer的结构里面在训练时固定住原来预训练模型的参数不变只对新增的Adapter结构进行微调。 2.Prefix Tuning构造隐式的输入token加入到输入前缀我的理解是将prompt变成可以调整参数的格式 3.P-tuning同样加了可微的virtual token但是仅限于输入没有在每层加。且virtual token的位置也不一定是前缀插入的位置是可选的这里的出发点实际是把传统人工设计模版中的真实token替换成可微的virtual token。 4.P-tuning V2在输入前面的每层加入可微调的参数。 5.LoRA冻结了预训练的模型权重在需要训练的矩阵开通一个旁路矩阵分为一个降秩矩阵和一个升秩矩阵比如一个100×100的矩阵可以替换为一个100×2和一个2×100两个矩阵参数量减少了10000-400将最后的结果加到原始矩阵上。 6.QLoRA引入了4位量化、双量化和利用nVidia统一内存进行分页。所有这些步骤都大大减少了微调所需的内存同时性能几乎与标准微调相当。 模型量化 比如8位量化需要最大值为127那么选取模型中参数最大的值/127为缩放比例a将所有的数都除以这个缩放比例a。 Actor-Critic架构 Actor演员使用SFT模型初始化使用问答对来更新其策略Critic评论家使用RM模型初始化用来拟合旧价值估计Reward Model用来产生当前状态和策略下获得的奖励值奖励值减掉SFT旧策略与新策略之间的KL散度作为reward优势函数等于reward减掉旧状态价值估计。当优势函数大于0时就要鼓励当前的动作当优势函数小于0时就要抑制当前动作。 优化器 SGD随机梯度下降它使用数据集中的单个样本或一批样本的梯度来更新模型参数。计算过程为原始参数原始参数-学习率×梯度。 Adam自适应学习率的梯度下降Adam算法将不同的梯度给予不同的权重使得神经网络在学习率稳定时能快速、稳定的收敛到最佳点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/84215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公司做网站的价格江阴n多国外免费空间

交易平台遇到的挑战 2017双11,交易峰值达到了32.5万笔/秒,这给整个交易系统带来了非常大的挑战。 一方面,系统需要支撑全集团几十个事业部的所有交易类需求:要考虑如何能更快响应需求、加快发布周期;如何能为新小业务提…

北京网站建设学习泰安58同城二手房出售信息

1 基本概率论 1.1 假设我们掷骰子,想知道1而不是看到另一个数字的概率,如果骰子是公司,那么所有6个结果(1..6),都有相同的可能发生,因此,我们可以说1发生的概率为1/6. 然而现实生活中,对于我们从工厂收到的…

平湖市网站建设做电商能赚钱吗

前言: layui这个框架不知道多少人还在关注着,记得第一次接触它是在18年,后来随着vue,react的盛行,jquerylayui的模式受到了特别大的冲击,后来作者都放弃维护他的官方网站,转而在github/gitee上做…

重庆高铁建设网站友情链接购买平台

不能更好的对齐,按enter键不能删除前缀 Ctrl加/:查看源代码 删除多余的-即可 嘿嘿

深圳市官方网站手机建站程序

exp/imp下面介绍的是导入导出的实例,向导入导出看实例基本上就可以完成,因为导入导出很简单。数据导出:1 将数据库TEST完全导出,用户名system 密码manager 导出到D:\daochu.dmp中exp system/managerTEST filed:\daochu.dmp fully2 将数据库中…

服务器网站备案有了域名之后怎么做自己的网站

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

有模板做ppt的网站有哪些网站做交叉连接

当使用C#进行Web API开发时,可能会遇到以下一些常见问题: 跨域请求 由于浏览器的同源策略限制,跨域请求可能会引发问题。解决方法可以使用CORS(跨域资源共享)来允许从特定的域名或端口访问你的API。 // 添加CORS中间…

服装网站建设规划书范文佛山做网站建设公司

【计算】 弹性云服务器ECS 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,您就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服…

企业网站怎么做的WordPress优化速度插件

目录 一、算法介绍 1.1算法背景 1.2算法引入 1.3算法假设 1.4算法原理 1.5算法步骤 二、算法公式推导 2.1数学基础 2.2EM算法推导 三、算法实现 3.1关于EM聚类 3.2EM工具包的使用 3.3 实例测试 四、算法讨论 4.1EM算法的优缺点 4.2EM算法的应用 4.3对于EM算法…

现在做一个网站大概多少钱如何使用seo进行综合查询

猜拳游戏大转盘积分游戏小程序前端模板源码, 一共五个静态页面,首页、任务列表、大转盘和猜拳等五个页面。 主要是通过做任务来获取积分,积分可以兑换商品,也可用来玩游戏;通过玩游戏既可能获取奖品或积分也可能会消…

网站更换ip 备案内容营销方案

文章目录 MySQL基础数据库的介绍数据库概述数据的存储方式数据库的概念常见数据库排行榜 数据库的安装与卸载数据库的安装数据库的卸载 数据库服务的启动与登录Windows 服务方式启动DOS 命令方式启动控制台连接数据库SQLyog 图形化工具——客户端使用 SQLyog 登录数据库数据库…

网站没有关键词的弊端乐山网站制作设计公司

在网上找了个录音软件,而且这个软件是根据手机里剩余内存的大小,可以进行不限时录音,所以特地拿上来和大家分享!这个JAVA软件我发到了“玩转手机”里。解压缩后,大家可以用MIDway_2.8中文,通过数据线上传到…

广州网站备案要审核多久pc端软件界面设计

前言 在生产环境中,除了采用持久化方式实现 Redis 的高可用性,还可以采用主从复制、哨兵模式和 Cluster 集群的方法确保数据的持久性和可靠性。 目录 一、主从复制 1. 概述 2. 作用 3. 主从复制流程 4. 部署 4.1 安装 redis 4.2 编辑 master 节…

上市公司协会网站建设汇报从电子商务网站f型眼球轨迹分析其网站布局

代码检查的重要性不言而喻,很多重要的项目都要做代码的检查,及时纠正代码中的错误,确保代码的可读性、可维护性和可拓展性,从而保证软件的质量。 一、代码检查的定义 代码检查是指通过对程序代码的独立检查来提高代码质量和开发效…

申请免费的个人网站百度问答库

随着人工智能技术的不断进步,AI在音乐创作领域的应用已经成为了一个不可忽视的现象。最近一个月,一系列音乐大模型的推出,不仅极大地降低了普通人创作音乐的门槛,也引发了关于音乐产业未来的广泛讨论。AI是否正在创造音乐的新纪元…

商务网站建设实训心得软件公司运营是做什么的

目录 蓝桥杯2023年第十四届省赛真题-更小的数 题目描述 输入格式 输出格式 样例输入 样例输出 提示 【思路解析】 【代码实现】 蓝桥杯2023年第十四届省赛真题-更小的数 时间限制: 3s 内存限制: 320MB 提交: 895 解决: 303 题目描述 小蓝有一个长度均为 n 且仅由数字…

网站名称与主办单位山东网站建设运营

当我们在内存中定义一个dict的时候,我们是可以随时修改变量的内容的:>>> ddict(namewc,age28)>>>d{name: wc, age: 28}我们可以随时修改name和age的值。但是当我们重新运行程序的时候,name、age的初始化值还是wc和28&#…

制作科技网站首页深圳私人做网站

基于深度学习的图像去噪 图像去噪是从受噪声污染的图像中恢复原始图像的过程。在传统方法中,常用的去噪技术包括均值滤波、中值滤波和维纳滤波等。随着深度学习技术的发展,基于深度学习的图像去噪方法取得了显著进展。 深度学习图像去噪方法 1. 卷积神…

大型网站建设招商建盏是什么意思

Windows event log服务会把程序与系统发送的错误消息记录在日志中,其中还包含了部分有用的诊断信息,近期有Win7用户在启用windows event log服务的时候,发生4201错误提示框。那么该如何解决该问题?下面装机之家分享一下Win7系统下…

最牛的html5网站建设最简单的网站开发工具

1.背景 今年6月,黄浦区人社局在建立新业态新职业岗位信息发布机制,挖掘数字经济、电商微商、兼职、共享、远程等新业态岗位的基础上,和人力资源机构携手打造全市首个“新经济、新业态”零工就业云平台。 2. 平台简介 平台上汇聚了新生代互…