防止语言模型性能倒退的新方法

news/2025/10/5 15:12:51/文章来源:https://www.cnblogs.com/codeshare1135/p/19126608

确保新版语言处理模型不会出现性能倒退

机器学习服务背后的模型不断更新,新版模型通常比旧版更准确。但整体准确率的提升仍可能伴随着特定情况下的性能回归——即准确率下降。这对用户来说可能令人沮丧,特别是当特定回归产生下游影响时。

在计算语言学协会年会上发表的一篇论文中,我们提出了一种自然语言处理中回归自由模型更新的新方法,使我们能够构建不仅准确率更高、而且能持续保持旧模型正确分类的新深度神经网络模型。

该论文包含两部分:模型更新回归研究和缓解方案提议。研究中,我们使用基于BERT语言模型的公共基准模型,并在通用语言理解评估框架的七项不同NLP任务上训练它们。然后使用不同模型参数或更强大的BERT模型训练更新模型。我们发现即使重新训练后整体性能有所提升,仍有1.9%到7.6%的输入案例出现回归。

为缓解回归问题,我们将匹配过去性能的问题表述为约束优化问题,然后通过知识蒸馏放松该问题,促使新模型在适当情境下模仿旧模型。

NLP模型中的回归缺陷

研究中,我们通过负翻转率衡量模型更新回归,即旧分类器预测正确但新分类器预测错误的案例百分比。对于拥有数千万用户的服务,我们测量的NFR类型将转化为数十万用户的糟糕体验。

研究显示,在更新模型中,NFR通常远高于总准确率增益,高出两到八倍。这意味着仅追求更新模型更高的准确率改进并不能确保减少回归。

如何缓解回归

回归自由模型更新要求模型既要学习目标任务,又要符合旧模型提出的条件,使其成为约束优化问题。我们将硬约束放松为软不等式条件,并提出了替代NFR的代理指标:使用Kullback-Leibler散度(标准相似性度量)来度量预测logits的连续度量。

在评估我们的方法时,我们使用了两个基线:传统方式更新的模型和包含原始模型与更新模型的集成模型。结果显示,当更新涉及改变语言模型时,我们的知识蒸馏方法最有效,将平均NFR降至2.91%,而集成模型为3.63%,传统更新为4.57%。

使用CheckList协议评估模型发现,蒸馏能有效减少几乎所有类型行为测试中的回归,表明我们的蒸馏方法实际上是在将新模型行为与旧模型对齐。

当更新涉及不同随机种子而不改变语言模型时,集成方法表现优于我们的方法。这可能是因为集成天然减少输出方差,使其不易过拟合。

基于初步研究结果,我们设计了一个简单模型选择程序:使用20个随机种子训练20个不同模型,挑选出能提供最大NFR减少的模型。发现在保持相同语言模型的更新情况下,这种方法减少回归的效果与集成方法相当,且无需并行运行两个模型的操作开销。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本站3天更换一次域名yw网络营销策划课程

BUFF,DEBUFF: 增益状态,包括自己或者队友施加的,例如骑士的祝福,牧师的耐力精神,小德的爪子DEBUFF就是减益状态,例如你PK的时候法师的寒冰箭减速,盗贼的毒药,SS的腐蚀等等NPC: NPC就…

南宁工程造价建设信息网站易企网站建设

源代码index.js里包含2部分① 业务逻辑代码 1mb② 引入(如lodash包)的代码 1mb若更新了业务逻辑代码,但在浏览器运行时每次都下载2mb的index.js显然不合理,第三方包是不会变的 手动拆分 webpack.base.js entry: {main: path.re…

RAG入门 - Retriever(1) - 指南

RAG入门 - Retriever(1) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&q…

毕业生就业推荐表模板网站开发制作网站的过程细节

什么是机器视觉 近年来,人工智能渐渐成为一个热点话题。作为人工智能领域的一个分支,图像处理技术也随之发展到了一个新的高度,各种新的软件工具、算法库、开源资料不断涌现,各行各业也渐渐开始进行技术变革。比较典型的例子是&a…

Delphi 解决IniFiles中文乱码

使用 AnsiToUtf8 方法转换一下就可以了procedure TForm1.LoadSettingsFromIni; varIniFile: TIniFile; beginIniFile := TIniFile.Create(FIniFilePath);tryUserNameEdit.Text := AnsiToUtf8((IniFile.ReadString(Sett…

180天做180个网站百度网盘官网网页版

最近朋友买了新手机,可是她又是电脑白痴,告诉她要她用百度搜,硬是没找到,百般无奈我千挑万选,找到了这个网站,让方便也同样带给同样不知道怎么用百度的朋友了5230主题下载网址:http://d.958shop…

礼泉做网站网站设计师主要做什么的

为 IoT 而生的鸿蒙操作系统,其优势与特点几乎都是围绕「万物互联」展开的。在曝光两年之后,华为的鸿蒙系统终于正式和用户见面了。6 月 2 日,华为鸿蒙操作系统及华为全场景新品发布会开启,正式推出 HarmonyOS 2.0,并发…

网站的域名空间网站的设计公司

讲正文之前,推荐一个连接:http://wuxinaiaman928.blog.163.com/blog/static/64932144200811911233198/ 里面比较详细的介绍了Vmware中三种不同的连接方式:桥连接,NAT,使用主机网络,有助于理解简单来讲&…

Web前端为什么要打包?Webpack 和 Vite 如何助力现代开发? - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

常州网站关键词优化软件建站系统是什么

作为一个程序员,选择职业赛道就像是在一座迷宫中探索前端的美丽花园,后端的黑暗洞穴,还有数据科学的神秘密室。每一条赛道都充满了挑战和机遇,而选择哪一条赛道将直接影响到你未来的职业发展和成就。对于每一位准备投身或已经在编…

淄博网站制作托管优化师德师风建设网站

参考链接 Cplus plus参考链接numeric_limits<double>::max ()是函数&#xff0c;返回编译器允许的 double 型数 最大值。类似的 numeric_limits<int>::max () 返回 编译器允许的 int 型数 最大值。需包含头文件 #include <limits> imits是STL提供的头文件&…

在哪做网站关键词官方网站下载打印机的驱动

研究经济学的理由就是【为了避免被经济学家欺骗】——琼罗宾逊 以前看见过一句话&#xff1a;大学生的钱是最好赚的。为什么&#xff1f;因为大学生要面子、没有经历过赚钱的心酸以及思想单纯容易被骗。最近一件事情让我感触很深&#xff0c;前几天室友将学校的水果店给投诉了…

分布式微服务系统架构第142集:全栈构建

分布式微服务系统架构第142集:全栈构建pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mo…

2025 年电永磁吊具制造厂家 TOP 企业品牌推荐排行榜全新发布,含大型电永磁吊具,全覆盖,起重,小型,钢板,钢板电永磁吊具公司推荐!

当前工业生产中,电永磁吊具作为物料搬运的核心设备,其性能直接影响生产效率与作业安全。但市场现状却不容乐观,一方面,大量小型厂商缺乏核心技术,生产的吊具常出现吸力不足、能耗超标、故障频发等问题,不仅拖慢生…

实用指南:云原生时代 Kafka 深度实践:03进阶特性与最佳实践

实用指南:云原生时代 Kafka 深度实践:03进阶特性与最佳实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Cons…

MySQL——事务 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

设计师工作室网站网页设计实训报告2000字通用

在Web程序中&#xff0c;验证码是经常使用的技术之一。Web程序永远面临未知用户和未知程序的探测。为了防止恶意脚本的执行&#xff0c;验证码技术无疑是首选方案之一。本文将讨论如何在JSP和Servlet中使用验证码技术。 验证码的产生思路很简单&#xff0c;在Servlet中随机产生…

详细介绍:几何绘图与三角函数计算应用

详细介绍:几何绘图与三角函数计算应用pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…