网站建设责任分工表东营做网站优化公司

diannao/2026/1/26 14:25:51/文章来源:
网站建设责任分工表,东营做网站优化公司,在线制作二维码名片,电子商务网站建设与推广目录 前言 关于分词器 关于中文字向量 如果数据集噪声很严重 baseline选用CNN还是RNN#xff1f;路线沿着CNN还是RNN走#xff1f; Dropout加在哪里 关于二分类 关于多标签分类 类别不均衡怎么办 别太纠结系列 还是不会用tricks但是就是想跑出个好结果怎么办 前言 …目录 前言 关于分词器 关于中文字向量 如果数据集噪声很严重 baseline选用CNN还是RNN路线沿着CNN还是RNN走 Dropout加在哪里 关于二分类 关于多标签分类 类别不均衡怎么办 别太纠结系列 还是不会用tricks但是就是想跑出个好结果怎么办 前言 一年前小夕在知乎上提问过这么一个问题 文本分类有哪些论文中很少提及却对性能有重要影响的tricks 链接https://www.zhihu.com/question/265357659/answer/578944550 当时正好在刷一个比较有趣的task结果发现奇奇怪怪的tricks可以带来不少的性能收益。再加上后来为了验证一个小idea跑了一堆公开的文本分类数据集虽然idea没有多亮倒是积累和摸索了不少刷性能的tricks╮(▽””)╭然后呢小夕后续又用这些tricks刷了不少相关的比赛哪怕是文本匹配这种特殊的文本分类问题发现baseline一堆tricks简单集成就可以随随便便刷到一个文本分类的水比赛的top10甚至top3甚感调参和tricks的重要性。然鹅最近好一段时间都没有文本分类这个基础问题了感觉都快忘了趁着还有点模糊的记忆就整理下来分享给大家叭希望能在大家刷论文实验、比赛或实际项目的时候提供点帮助或者启发。首先来一个结论tricks用的好调参调的妙TextCNN也能吊打绝大多数花里胡哨的深度模型。tricks没用好SOTA模型也会性能差的让你怀疑人生。下面就不分重点没有逻辑的开始本文辣。 关于分词器 中文也好英文也好拿过来数据集无可避免的就是要看看要不要做分词有的小伙伴以为英文数据集就完全不用分词真的让人很无奈鸭如果要做就要纠结分词器的选择了。 路人丙我厂有全方位吊打各种开源分词工具的分词器了 小夕好了你可以往下划了 首先就有一个问题**真的是算法越“先进”的分词器就会给下游任务带来越好的性能吗**很多人走到这一步的时候会忽略一个东西**词向量**其实比起分词算法本身的先进程度在神经网络使用预训练词向量的大背景下**确保分词器与词向量表中的token粒度match其实是更更重要的事情**毕竟哪怕你词分的再好一旦词向量表里没有的话那么就变成OOV了分的再好也木用了╮(▽””)╭除非你不嫌麻烦多写点代码去对相对于词向量表的OOV进行特殊处理反正我一般嫌麻烦╮(╯▽╰)╭于是这里就有了两种情况。1. ****已知预训练词向量的分词器一般像word2vec、glove、fasttext这些官方release的预训练词向量都会公布相应训练语料的信息包括预处理策略如分词等这种情况真是再好不过了不用纠结如果你决定了使用某一份词向量那么直接使用训练该词向量所使用的分词器叭此分词器在下游任务的表现十之八九会比其他花里胡哨的分词器好用。2. ****不知道预训练词向量的分词器这时就需要去“猜”一下分词器了。怎么猜呢首先拿到预训练词向量表后去里面search一些特定词汇比如一些网站、邮箱、成语、人名等英文里还有nt等看看训练词向量使用的分词器是把它们分成什么粒度然后跑几个分词器看看哪个分词器的粒度跟他最接近就用哪个如果不放心就放到下游任务里跑跑看啦。当然最理想的情况当然是先确定最适合当前任务数据集的分词器再使用同分词器产出的预训练词向量啦。可惜互联网上不可能有那么多版本的公开词向量供选择因此自己在下游任务训练集或者大量同分布无监督语料上训练词向量显然更有利于进一步压榨模型的性能。不过怎么为当前的任务去预训练一份儿好用的词向量又够写一篇文章的。。这里就不展开讲啦小夕以后再写没关注小夕的赶紧关注当然除了分词器跟词向量表要match上另外还要保证大小写、OOV的定义等跟词向量表match上。如果使用了一个区分了大小写的词向量表但是你还将下游任务的单词全都小写那么不用想了绝对性能丢N多个百分点。 关于中文字向量 路人丁好麻烦我不分词了我要用字向量了哼 小夕别逃(∇) 如果你真的将char-level作为主力那么别忘了中文的字向量也要预训练并且预训练的时候记得把窗口开大一些不要直接使用word-level的窗口大小哦其他预训练超参数也随手调一调更好了绝对比随机初始化的字向量明显的好。 如果数据集噪声很严重 这里噪声严重有两种情况。对于数据集D(X, Y)一种是X内部噪声很大比如文本为口语化表述或由广大互联网用户生成一种是Y的噪声很大一些样本被明显的错误标注一些样本人也很难定义是属于哪一类甚至具备类别二义性。对于前一种噪声一个很自然的想法是去使用语言模型或者基于编辑距离去做文本纠错然鹅实际中由于专有名词和超出想象的“假噪声”存在在实际场景中往往效果并不是很好。这里小夕一般有两种思路一种是直接将模型的输入变成char-level中文中就是字的粒度然后train from scratch不使用预训练词向量去跟word-level的对比一下如果char-level的明显的效果好那么短时间之内就直接基于char-level去做模型叭如果性能差不太多或者char的已经做到头了想做一下word-level呢不要急先帮小夕买根棒棒糖呗(∇)一个很work但是貌似没有太多人发现的trick就是使用特殊超参的FastText去训练一份词向量啦。为什么说特殊呢一般来说fasttext在英文中的char ngram的窗口大小一般取值36但是在处理中文时如果我们的目的是为了去除输入中的噪声那么我们可以把这个窗口限制为12这种小窗口有利于模型去捕获错别字想象一下我们打一个错误词的时候一般都是将其中的一个字达成同音异形的另一个字比如word2vec学出来的“似乎”的最近词可能是“好像”然而小ngram窗口fasttext学出来的“似乎”最近词则很有可能是“是乎”等内部包含错别字的词这样就一下子让不太过分的错别字构成的词们又重新回到了一起甚至可以一定程度上对抗分词器产生的噪声把一个词切分成多个字。当然如果数据集很干净的话这样训练词向量的话可能就gg了。而对于后一种噪声的情况即Y中的噪声一种很直接的想法是做标签平滑然而小夕在实战中使用多次发现效果并不是太明显。最后总结的trick是首先忽略这个噪声强行的把模型尽可能好的训出来然后让训练好的模型去跑训练集和开发集取出训练集中的错误样本和开发集中那些以很高的置信度做出错误决策的样本比如以99%的把握把一个标签为0的样本预测为1然后去做这些bad cases的分析如果发现错误标注有很强的规律性则直接撸一个脚本批量纠正一下只要确保纠正后的标注正确率比纠正前明显高就行。如果没有什么规律但是发现模型高置信度做错的这些样本大部分都是标注错误的话就直接把这些样本都删掉吧常常也可以换来性能的小幅提升毕竟测试集都是人工标注的困难样本和错标样本不会太多。 baseline选用CNN还是RNN路线沿着CNN还是RNN走 在文本分类中真的不要太纠结这个问题个人倾向于CNN主要是因为跑得快呀。。。可以多跑几组实验多好。而且实际经验感觉TextCNN这种基础款CNN模型不仅实现特别容易而且很容易成为一个数据集上的很强的baseline除非这个分类任务很难花一两个小时把这个baseline做出来后再去做其他模型一点也不迟也有助于早期就能纠正大方向。而如果要谈到客观的思路决策上那就去花一个小时好好看一下数据集吧如果你感觉数据集里很多很强的ngram可以直接帮助生成正确决策那就CNN起步吧。如果感觉很多case都是那种需要把一个句子看完甚至看两三遍才容易得出正确tag那就RNN起步吧。当然如果数据大又有显卡还可以尝试Transformer。时间多的话还可以CNN、RNN的模型都跑出来简单集成一下。 Dropout加在哪里 word embedding层后、pooling层后、FC层**全联接层**后哦了。起步阶段dropout概率保持统一有时间再单独微调就好从来没有这个时间过。至于偶尔有人吹捧的word dropout策略将一些token随机mask成[PAD]或者说0。注意这个操作跟dropout加在embedding层后不等价哈最后有时间的话试一下就好亲测在dropout调好的情况下一般并不会发挥多大作用。 关于二分类 二分类问题一定要用sigmoid作为输出层的激活函数当然不是尝试一下包含俩类别的softmax吧。可能多一条分支就多一点信息叭虽然后者在数学形式上更丑一点但是实践中常常带来零点几个点的提升也是比较玄学了。 关于多标签分类 如果一个样本同时拥有多个标签甚至标签同时还构成了DAG有向无环图不要着急先用binary-cross-entropy训出个baseline来即把每个类别变成一个二分类问题这样N个类别的多标签分类问题就变成了N个二分类问题毕竟这个都在tensorflow里有现成API了即tf.nn.sigmoid_cross_entropy_with_logits。因此实现代价很小。然后你还可能惊喜的发现这个baseline做好后好像多标签问题不大了DAG问题自己也基本解决了虽然模型层并没有专门针对这个问题作处理然后就可以安心做模型辣。什么问题木有解决去查论文吧╮(▽””)╭小夕还没有接触过这方面太难的数据集。 类别不均衡怎么办 像网上说的那样赶紧各种上采样下采样boosting策略用起来nono正负样本比才9:1的话继续做你的深度模型调你的超参吧模型做好后你会发现这点不均衡对模型来说不值一提决策阈值也完全不用手调。但是如果你发现经常一个batch中完全就是同一个类别的样本或者一些类别的样本经过好多batch都难遇到一个的话均衡就非常非常有必要了。类别不均衡问题传送门-【小夕精选】如何优雅而时髦的解决不均衡分类问题 别太纠结系列 别太纠结文本截断长度使用120还是150 别太纠结对性能不敏感的超参数带来的开发集性能的微小提升 别太纠结未登陆词的embedding是初始化成全0还是随机初始化别跟PAD共享embedding就行 别太纠结优化器用Adam还是MomentumSGD如果跟SGD的感情还不深就无脑Adam最后再用MomentumSGD跑几遍 还是不会用tricks但是就是想跑出个好结果怎么办 BERT了解一下。Over。暂时想起来的就是这些啦剩下有想起来的tricks小夕会更新到知乎上传送门 https://www.zhihu.com/question/265357659/answer/578944550 话说小夕跟大家分享了这么多tricks亲爱的们有没有秘藏tricks在评论区分享给小夕呢(∇)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/87949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

邢台移动网站建设服务wordpress企业站爱主题

面相对象程序设计包含内容如下 局域网聊天程序设网页浏览器设计电子日历记事本的设计 以其中的一个的报告进行举例 1需求与总体设计 1 1.1需求分析 1 1.2总体设计方案 1 1.2.1系统功能分析以及功能表 1 1.3系统类图的关系以及表之间的联系 2 2详细设计 3 2.1 Manag…

网站软文是什么建筑公司网站内容

题目的意思大概就是问是否存在一串全是8的数字是L的倍数 直接想没有什么想法,要想到用简洁的形式将这个数字表示出来,对于每一位都是8的数字我们可以用 X8*(10k-1)/9的形式表示出来,那么题目的意思就是求X使L|X,我们先处理一下8和…

昆明网站建设工作室夜晚必备直播软件

以前都是自己写链表或者所用框架都自带链表操作,本次工作换了框架没有找到框架自带的链表操作,所以尝试使用linux自带的list.h中定义的相关宏和函数写了简单的链表操作,竟然踩坑了,记录一下。 一、list.h简介 list.h一般放在inc…

全网网站推广浙江建设职业技术学校网站登录

前言Spring的声明式事务让我们不在编写获得连接、关闭连接、开启事务、提交事务、回滚事务等代码,通过一个简单的Transactional注解,就让我们轻松进行事务处理。我们知道Spring事务基于AOP,采用动态代理实现,虽然使用简单&#xf…

学生个人网站设计徐州金网网站建设

开发语言 node.js 框架:Express 前端:Vue.js 数据库:mysql 数据库工具:Navicat 开发软件:VScode本论文拟采用计算机技术设计并开发的论坛bbs系统,主要是为用户提供服务。使得用户可以在系统上查看帖子信息、签到积分等…

免费html网页模板网站重庆建设工程招标投标交易信息网

print()、input()、if/else就可以做一个简陋的游戏 print() # 打印函数,将信息打印出来input() # 将信息打印,并且要求输入一段话,并且把这段话。input函数,这个函数会将字符串显示在IDLE上,并且让用户输入信息&#…

一个做外汇的网站叫熊猫什么的高大上企业网站

在当今高度竞争的制造行业中,高效的生产管理是企业成功的关键。盘古信息IMS-MOM制造运营管理系统作为一款领先的管理系统其关键特性为制造企业构建生产现场管理信息系统提供了强大的优势。IMS-MOM不仅仅是一个软件系统,更是一种技术和管理手段的结合&…

官方网站的作用网站服务器防火墙设置

呼叫中心发展至今,它的意义早已不是90年代末,只是简单地解决客户客服系统的要求。现在的呼叫中心有了新的使命,比如拓展成为一个信息服务中心,或者成为一个营销中心。客户如何能通过这样的手段,使企业与其他的企业之间形成差异化的…

哪个公司做的网站好郑州三附院不孕不育科专家

说明:该文属于 大前端全栈架构白宝书专栏,目前阶段免费,如需要项目实战或者是体系化资源,文末名片加V!作者:哈哥撩编程,十余年工作经验, 从事过全栈研发、产品经理等工作,目前在公司…

精品网站建设比较好深圳酒店vi设计公司

build.gradle(app)中设置 1. defaultConfig { multiDexEnabled true } 2. dependencies { compile ‘com.android.support:multidex:1.0.1’ } 3.使用 extends MultiDexApplication

网站基础建设和维护重庆网站建设 熊掌号

中新社吉隆坡1月30日电 (记者 陈悦)马来西亚国际贸易和工业部30日发布的2018年马来西亚贸易报告显示,2018年马来西亚与中国的贸易额约为3138.1亿林吉特(马来西亚货币,约合774亿美元),较上年同期增长8.1%,约占马来西亚对外贸易总额…

骨干校建设验收网站windows优化大师有哪些功能

写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成…

linux网站入口wordpress付费发布

我的罗里吧嗦的,根据小朋友的要求,边听边写边输入的提示词: 请生成一段完整的在网页中用html5和javascript代码模拟“我的世界”中游戏场景的互动画面,要求提供若干人物选项可以选择,请自行选择需要使用哪些库或框架来…

公司网站页面设计怎样写网站设计意义

首先,这篇文章是基于笔尖AI写作进行文章创作的,喜欢的宝子,也可以去体验下,解放双手,上班直接摸鱼~ 按照惯例,先介绍下这款笔尖AI写作,宝子也可以直接下滑跳过看正文~ 笔尖Ai写作:…

物流企业网站建设策划书好用的网站推荐

什么是优质服务?既是以客户为中心的庄严承诺,又是对服务能力提升的深耕细作;既是对服务标准的敬畏,也是对服务创新的不断探索……服务是多维的,每个企业都有自己独到的诠释,或事无巨细环环严控,…

aspx网站做app建好网站是不是每年都要交钱

很久没更新了,最近准备研究逆向和加固,于是跟着看雪hanbing老师学习彻底搞懂ollvm,终于把所有流程跑通了,中间遇到了太多的坑,所以必须记录一下,能避免自己和帮助他人最好。 环境搭建太重要了,…

广州市外贸网站建设服务机构汕头资讯网

关于光纤收发器的工作原理以及使用方法这块,在这里飞畅科技的小编做了专门的整理,首先,我们来了解下什么是光纤收发器,光纤收发器是一种将短距离的双绞线电信号和长距离的光信号进行互换的以太网传输媒体转换单元,在很…

南充网站建设与维护wordpress建站网页无法运

今天复习了springMVC的框架搭建。 思维导图: 转载于:https://www.cnblogs.com/kangy123/p/9315919.html

枣庄专业三合一网站开发工程建设管理网站

蓝桥杯前端Web赛道-输入搜索联想 题目链接:1.输入搜索联想 - 蓝桥云课 (lanqiao.cn) 题目要求: 题目中还包含effect.gif 更详细的说明了需求 那么观察这道题需要做两件事情 把表头的每一个字母进行大写进行模糊查询 这里我们会用到几个js函数&#…

韩国设计网站推荐wp网站开发

杨__羊羊在哪里放置 JavaScript 代码?通常情况下,JavaScript 代码是和 HTML 代码一起使用的,可以将 JavaScript 代码放置在 HTML 文档的任何地方。但放置的地方,会对 JavaScript 代码的正常执行会有一定影响,具体如下所…