网上商城网站建设方案网站分栏目怎么做

pingmian/2025/10/9 6:03:25/文章来源:
网上商城网站建设方案,网站分栏目怎么做,网站后台怎么上传文件,网站视频转码软件文 | sliderSun源 | 知乎NLP模型的大小不断增加#xff0c;随之而来的是可用性降低#xff0c;TinyBERT#xff0c;MobileBERT#xff0c;和DistilBERT都提出了一个独特的知识蒸馏框架#xff0c;其共同目标是在保持性能的同时减小模型大小。尽管所有这些方法都以各自的方… 文 | sliderSun源 | 知乎NLP模型的大小不断增加随之而来的是可用性降低TinyBERTMobileBERT和DistilBERT都提出了一个独特的知识蒸馏框架其共同目标是在保持性能的同时减小模型大小。尽管所有这些方法都以各自的方式取得了成功但存在一个共同的缺点知识蒸馏需要在已经很昂贵的教师训练之后进行额外的训练限制了这些技术对推理时间的实用性。_修剪_是知识蒸馏的替代方法先前的工作,表明基于Transformer的架构可以在推理过程中减少一些注意头而不会显著降低性能。如果我们将整个Transformer层从我们预先训练过的模型中删除模型性能会发生什么变化?得出的模型对进一步的微调有用吗?性能是否因我们删除的层而不同?《Poor Man’s BERT: Smaller and Faster Transformer Models》给出了分析。主要贡献剪枝技术(五种不同的策略)Top-layer dropping。 移除网络的最后一层。先前的工作已经表明网络的后期层次专门用于训练前的目标这在训练的微调阶段可能没有帮助。Bottom-layer dropping。 从网络中移除初始层。出于完整性考虑包含了这种剪枝形式即使以前的工作已经表明初始层为token之间的局部交互建模。Alternate dropping。 从网络的末端开始移除每一层包括偶数层或奇数层。这些技术的目的是回答相邻层是否学习了足够相似的变换来移除其中一个。Symmetric dropping。 从网络中心移除层。其动机是与底层和顶层相比这些层学习不那么重要的功能。Contribution-based dropping。 根据它们对输入的修改程度删除层。这是通过平均输入和输出嵌入之间的余弦相似度来测量的。移除相似度高的层似乎是合理的因为这意味着细微的变化。拟议方法的好处应用这些修剪技术的主要好处之一是生成的模型不需要任何进一步的_预训练_。作者建议仅根据特定任务_微调_模型就足够了。这使从业人员无需访问大量计算硬件即可轻松创建已经存在的经过预先训练的模型的较小版本。结果针对三种模型评估了上述修剪技术-12层基于BERT和XLNet的模型以及6层DistilBERT。DistilBERT还使所建议的修剪方法与类似的知识蒸馏技术之间能够进行进一步的比较。最佳修剪技术我们发现顶层删除优于其他修剪技术尤其是在GLUE基准测试中删除4层或6层时。在后一种情况下当删除模型的一半层时BERT和XLNet的性能仅分别降低了2.9和1.8 GLUE点。这与DistillBERT的性能相匹配后者的尺寸可与这些修剪过的模型相媲美。在BERT或XLNet中修剪六个顶层都会得到一个与DistillBERT的性能和大小相匹配的模型而无需任何特定的培训过程。从DistillBERT删除图层也会产生高性能模型其中删除一层或两层的效果与原始模型相当。同样顶层删除是最一致的而两种偶数和奇数替换删除方法都具有竞争性。特定任务的结果由于顶级修剪被证明是最佳选择因此以下实验仅限于该方法。不必研究删除固定的一组层时会发生什么而是可以从另一个角度解决这个问题-假设我们接受了一定的性能下降我们允许下降多少层接受12或3的性能下降表明对于某些GLUE任务BERT和XLNet最多可以下降9层在DistilBERT情况下最多可以下降4这如果有的话应该很好地表明了变压器模型所面临的过度参数化。对于某些任务可以从12层模型中修剪最多9个顶层而不会降低3以上的性能。BERT与XLNet作者还提供了有关BERT和XLNet的修剪能力的详细比较。他们发现了以下内容XLNet在修剪顶层方面更加强大。 这使他们得出结论XLNet能够在网络中更早地学习更复杂的特定于任务的信息。通过在BERT和XLNET的每个变压器层上添加分类器头来评估该假设。XLNet已在第7层达到了最佳性能而BERT需要至少11层才能收敛请参见下图。该结果说明了XLNet的鲁棒性。微调以完全不同的方式影响BERT和XLNet中的层。 尽管先前的工作表明对BERT的较晚层进行微调的程度远大于对BERTNet的较早层进行微调但尚未研究它如何影响XLNet层。这项工作验证了先前的发现但与XLNet的事实形成了对比对于XLNet中间层的变化远大于微调后的早期和晚期层。下图显示了这两种模型微调前后各层之间的比较。作者推测造成这种差异的原因是预训练过程。为了避免陷入确切的细节中XLNet是一种自动回归AR语言模型它通过分解阶数的所有可能排列进行训练尽管它是AR模型但它仍可以学习双向上下文。修剪微调的模型当问到“如果我们修剪已经微调的模型会发生什么情况”这个问题是有效的时作者表明它并不能显着提高性能实际上会导致BERT的结果更糟。结论知识蒸馏已显示出令人鼓舞的结果可以在减小模型大小的同时保留其大部分性能。主要缺点是建立这些模型需要额外的训练这会阻止计算资源有限的研究人员创建这些较小的模型。一种替代方法是通过简单地删除一组图层来修剪模型。这项工作表明删除顶层可以提供最一致的结果对于某些任务可以从12层中删除9层同时保留原始模型的97的性能。最后这项工作提供了有关BERT和XLNet之间差异的见解这表明XLNet是用于修剪的更强大的模型。 作者部分地归因于其新颖的预训练目标。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] https://link.medium.com/jxkO6EmLi8[2] https://link.medium.com/KeobJglLi8[3] https://link.medium.com/I4Q4ulnLi8[4] http://arxiv.org/abs/1905.10650[5] https://arxiv.org/abs/1905.09418[6] https://arxiv.org/abs/2004.03844[7] https://medium.com/dair-ai/poor-mans-bert-why-pruning-is-better-than-knowledge-distillation-%EF%B8%8F-f9652a1dc2bd

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/90339.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

余姚做网站哪家好易语言 做网站

1、强引用(StrongReference) 强引用不会被GC回收,并且在java.lang.ref里也没有实际的对应类型。举个例子来说:     Object obj new Object();     这里的obj引用便是一个强引用,不会被GC回收。 2、软引用&…

改变网站字体索引擎优化 seo

嘛,说实话,现在才开始,实在是有点晚了,一不小心大学都过去1年了_(:3 」∠)_ 我在专业方面的起步也是相当晚的,身为计算机专业,编程却从大学才开始正式接触,进入大学时其他方面的能力也都约等于0…

西安机场商务宾馆百度做网站哈尔滨百度网站快速优化

总的来说就是,由两台以上的路由器组成一个HSRP组,在该组之中选举一台路由器作为Active路由器,一台路由器作为Standby路由器,其它路由器则进入Listen状态。实际工作时,是由Active路由器去转发数据,一旦Activ…

哪些网站有好的营销案例重庆市建设施工安全网

docker仓库登录及配置insecure-registries的方法 这篇文章主要介绍了docker仓库登录配置insecure-registries的方法,docker客户端如果配置中添加了insecure-registary配置,就不需要在docker 客户端配置上对应证书,如果不配置要在/etc/docker/certs.d/目…

站长号小程序赚钱的几种方法

对于需要大量翻译的数据,人工翻译太慢,此时需要使用软件进行批量翻译。1.使用360的翻译def fanyi_word_cn(string):url"https://fanyi.so.com/index/search"#db_path ./db/tasks.dbForm_Data {}#这里输入要翻译的英文Form_Data[query] string…

网站开发制作流程ppt精美模板

目录 1 问题2 问题分析3 解决过程3.1 确保Pillow库存在3.2 迷惑阶段3.3 解决问题 4 希望大佬解答 1 问题 今天做了一个使用Python写的脚本文件.py,打算把它转换成.exe文件。点击生成的exe文件时,出现了如下弹窗。 2 问题分析 根据错误描述&#xff1…

网站怎么做域名跳转青岛知名网站建设公司排名

我想从Oracle的nashorn JavaScript引擎中调用一个带有 char[] 输入参数的Java函数(非数组参数类型的函数对我来说没问题) .如果我用JavaScript字符串文字调用Java函数,nashorn balksjavax.script.ScriptException: TypeError: Can not invoke method[jdk.internal.d…

免费网站建站 知乎做二手房又做网站的

一、对于三相电源线的电动机,反转只需要任意的交换两根电源线即可 二、例如接通KM1对应正转的话,则接通KM2则对应反转 三、电机正转按钮及其对应的地址 四、电机反转按钮及其对应的地址 五、电机停止按钮及其对应的地址 六、正转的接触器线圈 七、反转的…

百度网盘怎么做网站网站平台项目交接需要什么

目录 什么是TestNG? 如何创建testng.xml文件 手动创建testng.xml 通过testng.xml运行整个包 通过testng.xml运行类 使用Eclipse创建testng.xml 本文将讨论TestNG以及如何通过执行testng.xml文件在TestNG中运行第一个测试用例。 什么是TestNG? Te…

计算机 网站开发 文章wordpress首页图片管理

上次讲了常用的接口:C初阶:初识STL、String类接口详细讲解(万字解析) 今天就来进行模拟实现啦 文章目录 1.基本结构与文件规划2.构造函数(constructor)2.1构造函数2.1.1无参有参分开2.1.2利用缺省参数合起来 2.2拷贝构…

古镇高端网站建设卖货到海外的免费平台

1 介绍 Rancher是一个开源的企业级多集群Kubernetes管理平台,实现了Kubernetes集群在混合云本地数据中心的集中部署与管理,以确保集群的安全性,加速企业数字化转型。Rancher 1.0版本在2016年就已发布,时至今日,Ranche…

互联网站从事登载新闻业务管理暂行规定小视频网站怎么做

第二章 算法设计思想 一、搜索排序 1.排序算法 https://visualgo.net/zh/sorting (1)冒泡排序 # 思路: # (1)比较相邻元素,如果第一个比第二个大,则交换他们 # (2)第一轮下来,可以保证最后一个数一定是最大的;第二…

商丘网站公司济南公共资源交易中心

题意: 给你一些联通关系,问Bob先选择一些路径(1~n)联通,Alice在路径上染色,Bob的目的是选择一些路径使得染色变化最小,对于Alice来说,需要使得在Bob选择的(1−n1-n1−n&…

湖北商城网站建设怎么去除自己做的网站

文章目录 openGauss学习笔记-151 openGauss 数据库运维-备份与恢复-物理备份与恢复之gs_basebackup151.1 背景信息151.2 前提条件151.3 语法151.4 示例151.5 从备份文件恢复数据 openGauss学习笔记-151 openGauss 数据库运维-备份与恢复-物理备份与恢复之gs_basebackup 151.1 …

高新网站开发1年经验网站开发开始阶段的主要任务包括( )

当谈及安全产业,你脑海里能够想到哪些事情?是红黑大战的攻防演练,还是PC上的各种安全软件?事实上,安全的范围远超我们的想象,安全产业也一直在背后,默默的保护在互联网生活的周围。 互联网的发…

门户网站的特点及优势注册有限公司需要多少钱

众所周知,Windows系统有个传统艺能,就是通过“netplwiz”或者“control userpasswords2”设置免密码自动登录。前段时间在调整一台虚拟机的配置时,突然惊奇的发现,在设置免密码登录的时候居然找不到需要去掉勾选的复选框了。如下图…

做网站公司价格瑞昌市建设局网站

11月21日,由中国联通举办的主题为“共筑产业生态,链通数智未来”的网络安全现代产业链共链行动计划暨战新共创启航大会“5G工业互联网”专题供需对接会在北京顺利召开,宏电股份董事长左绍舟应邀出席活动。 会议现场,中国联通雁飞…

动力做网站京东商城网站开发平台

随着工程机械行业的不断发展和自动化程度的提高,工业一体机在工程机械车辆上的应用越来越广泛。工业一体机是集电脑、显示器、触摸屏、通讯、测量、控制等多种功能于一体的高度集成化的工业控制系统,在工程机械车辆上的应用可以为用户提供更为便捷、高效…

装饰网站建设多少钱多国语言网站

linux是开源系统,之所以打不开,是因为部分linux系统为了避免版权问题,没有m4a的解码插件。所以,解决的办法是安装如下两个非常小的转换器,我们一般用不到转换器的功能,而是反向应用,通过两个几十…

微信公众号对接网站南昌网站建设培训学校

问题描述 在做java导出Excel数据的时候,接口层面需要有HttpServletResponse的入参来设置输出流 然后执行的时候报getOutputStream() has already been called for this response错误 问题排查 返回的错误信息 {"timestamp": "2024-04-16T11:49:…