提升BERT模型效率与容量的新方法:Pyramid-BERT

news/2026/1/18 11:14:37/文章来源:https://www.cnblogs.com/codeshare1135/p/19342079

近年来,自然语言处理(NLP)领域许多性能最佳的模型都建立在BERT语言模型之上。BERT模型在大规模(未标注)公共文本语料库上进行预训练,编码了单词序列的概率。由于BERT模型一开始就掌握了语言的整体知识,因此只需相对较少的标注数据,就能针对特定任务(如问答或机器翻译)进行微调。

然而,BERT模型体量庞大,基于BERT的NLP模型可能运行缓慢,对于计算资源有限的用户来说甚至慢到难以接受。其复杂性也限制了可处理的输入长度,因为其内存占用随输入长度的平方而增长。

在今年计算语言学协会(ACL)的会议上,本文作者及其同事提出了一种名为Pyramid-BERT的新方法。该方法能在几乎不损失准确性的前提下,减少基于BERT模型的训练时间、推理时间和内存占用。减少的内存占用也使BERT模型能够处理更长的文本序列。

基于BERT的模型将句子序列作为输入,并输出整个句子及其各个单词的向量表示(嵌入)。然而,文本分类和排序等下游应用仅使用完整的句子嵌入。为了使基于BERT的模型更高效,该方法尝试在网络的中间层逐步消除冗余的单个单词嵌入,同时尽量减少对完整句子嵌入的影响。

将Pyramid-BERT与几种最先进的BERT模型效率优化技术进行比较,结果显示,该方法能将推理速度提高3到3.5倍,而准确率仅下降1.5%;在相同速度下,现有最佳方法的准确率损失为2.5%。此外,当将此方法应用于专为长文本设计的BERT变体Performers时,能将模型的内存占用减少70%,同时甚至提高了准确性。在此压缩率下,现有最佳方法的准确率会下降4%。

标记的处理过程

输入BERT模型的每个句子都被分解为称为“标记”的单位。大多数标记是单词,但有些是多词短语、子词部分、缩写的单个字母等。每个句子的开头由一个特殊的标记(称为CLS)来标示。

每个标记通过一系列编码器(通常在4到12个之间),每个编码器为每个输入标记生成一个新的嵌入向量。每个编码器都有一个注意力机制,用于决定每个标记的嵌入应反映多少由其他标记携带的信息。

当标记通过一系列编码器时,它们的嵌入会包含越来越多关于序列中其他标记的信息,因为它们会关注那些同样也在整合越来越多信息的其他标记。当标记通过最终的编码器时,CLS标记的嵌入最终代表了整个句子。但它的嵌入也与句子中所有其他标记的嵌入非常相似。这正是该方法试图消除的冗余。

核心思路

基本思路是,在网络中的每个编码器层,保留CLS标记的嵌入,但从其他标记的嵌入中选择一个具有代表性的子集(即核心集)。

嵌入是向量,因此可以解释为多维空间中的点。理想情况下,为了构建核心集,我们会将嵌入分类为等直径的簇,并选择每个簇的中心点(质心)。

然而,构建一个跨越神经网络层的核心集问题是NP难问题,意味着其耗时将长得不切实际。

作为替代方案,该论文提出了一种贪心算法,每次从核心集中选择n个成员。在每一层,我们取CLS标记的嵌入,然后在表示空间中找到距离它最远的n个嵌入。我们将这些连同CLS嵌入一起添加到核心集中。接着,我们找到那些与核心集中已有任一点的最小距离最大的n个嵌入,并将它们添加到核心集中。

我们重复这个过程,直到核心集达到所需的大小。这被证明是足够接近最优核心集的近似。

最后,论文还探讨了每一层核心集应该多大。作者使用指数延迟函数来确定从一层到下一层的衰减程度,并研究了在选择不同的衰减率时,准确性与加速或内存减少之间的权衡关系。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1003596.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全审计平台:运营商数字化转型的必选项与国内优质厂商全景

作为关键信息基础设施运营者,运营商承载着亿级用户通信服务、海量数据存储传输及跨行业数字化赋能的核心使命。在 5G 规模化部署、云网融合加速推进的背景下,其网络架构已延伸至 IT、CT、OT 三域协同的复杂生态,安全…

2025 年常州混合机与粉碎设备厂家权威推荐榜:高效混合、超微粉碎、万能破碎技术实力深度解析 - 品牌企业推荐师(官方)

2025 年常州混合机与粉碎设备厂家权威推荐榜:高效混合、超微粉碎、万能破碎技术实力深度解析 在现代化工、制药、食品、新材料等众多工业领域,物料的高效混合与精细化粉碎是决定产品品质、生产效能及成本控制的核心环…

2025年12月昭昭医考资料深度评测:专业性与服务体验如何? - 品牌测评鉴赏家

2025年12月昭昭医考资料深度评测:专业性与服务体验如何?昭昭医考资料核心优势解析 昭昭医考资料作为医学考试备考领域的知名品牌,其产品体系以"学-练-测"全阶段覆盖为特色,为医考生提供全方位的备考支持…

VDD_EXT应用全解:原理、限制与低功耗设计优化

VDD_EXT作为连接外部电路与核心系统的供电桥梁,其性能表现直接影响产稳定性和能效水平。忽视其工作原理或超越其电气限制,可能导致系统失效或功耗超标。本指南将全面解析VDD_EXT的技术内涵,并提供面向低功耗场景的设…

【MySQL】数据库约束

MySQL 数据库约束:核心概念、类型与应用详解 MySQL 中的数据库约束是作用于数据表列 / 行的规则,用于限制存入数据的格式、范围和关联性,核心目的是保障数据的完整性(准确性、一致性),避免无效、冗余或冲突的数据…

四川工程监理公司排名前五,你绝对不能错过! - 百誉集团

在四川,工程监理行业竞争激烈,众多企业凭借其专业能力和优质服务脱颖而出。以下是四川省内排名前五的工程监理公司,它们在行业内享有很高的声誉和影响力。 一、成都华西立信建设管理有限公司 作为四川省内的领军企业…

国内排名前五的AI文献综述工具,你绝对不能错过! - 百誉集团

在学术研究和论文写作中,文献综述是不可或缺的一环。然而,面对海量的文献资料,手动整理和分析不仅耗时费力,还容易遗漏重要信息。近年来,随着人工智能技术的发展,AI文献综述工具应运而生,为研究人员提供了高效、…

AI搜索优化公司不知道怎么选?成都奇林智媒把流程摊开看,让你花钱明明白白 - 奇林智媒GEO

当成都的家电、家居或新消费品牌主,终于意识到需要让AI更了解自己时,一个更现实的问题立即摆在面前:市面上这么多做AI GEO优化的服务商,到底该怎么选? 品牌主可能已经接触过几种类型的服务商:有的强调神秘的“算…

基于MATLAB的RFID防碰撞算法仿真

一、ALOHA算法仿真实现 1.1 标签响应模型 function responses = aloha_simulation(tag_num, frame_size)% 生成随机响应时隙slot_assign = randi([1,frame_size],1,tag_num);% 碰撞检测矩阵collision_matrix = accumar…

2025年去痘印产品哪款最能打?专家实测+用户反馈给出真实答案 - 资讯焦点

色斑反复、痘印残留、肤色暗沉、细纹滋生,成了不少人护肤路上的“拦路虎”——春夏紫外线肆虐,晒斑悄然加深,泛红痘印在阳光下格外明显;秋冬肌肤缺水干燥,色斑易脱皮显形,干纹细纹愈发凸显,敏感肌更是深陷“干敏…

2025 年度 Deepseek 知识库部署服务商全景报告:专属本地化交付方案及 AI 知识库部署方案商专项解析 - 品牌2026

2025年,当“大模型私有化”成为企业数字化的高频词,Deepseek知识库部署服务商究竟能提供什么?数据不出境、模型可迭代、场景可定制——这些关键词背后,是一套从硬件选址到知识运营的端到端工程。本文聚焦“Deepsee…

2025 年 12 月管道电预热工程厂家权威推荐榜:专业设备与高效施工,热力管道电预热工程一站式解决方案精选 - 品牌企业推荐师(官方)

2025 年 12 月管道电预热工程厂家权威推荐榜:专业设备与高效施工,热力管道电预热工程一站式解决方案精选 在集中供热、石油化工、长输管道等工业领域,管道系统的安全、高效运行是保障生产与民生的基石。其中,热力管…

盘点2025年超纯水器/实验室超纯水器/国产超纯水器口碑好/性能好/质量好/品质好的生产企业 - 品牌推荐大师

实验室超纯水器是一种用于生产高纯度水的设备,广泛应用于科研、医疗、制药、电子、化学等领域。它能够通过一系列的过滤和处理技术去除水中的溶解物、颗粒、细菌、病毒和有机物,使得水质达到极高的纯度标准。超纯水的…

2025年二手发电机买卖回收权威推荐榜:专业甄选高性价比设备,提供一站式回收与交易服务 - 品牌企业推荐师(官方)

2025年二手发电机买卖回收权威推荐榜:专业甄选高性价比设备,提供一站式回收与交易服务 在当今的工业生产和商业运营中,稳定可靠的电力供应是保障一切活动顺畅进行的基石。无论是作为主用电源、备用电源,还是应对临…

2025 年 12 月冠晶石厂家权威推荐榜:外墙/内墙/防霉/水包水/水包砂/耐污/自洁冠晶石,甄选创新环保饰材品牌 - 品牌企业推荐师(官方)

2025 年 12 月冠晶石厂家权威推荐榜:外墙/内墙/防霉/水包水/水包砂/耐污/自洁冠晶石,甄选创新环保饰材品牌 随着建筑装饰行业对美学、功能性与可持续性要求的不断提升,冠晶石作为一种集合了仿石质感、优异性能与环保…

2025年智能体开发,Agent智能体,智能体数据生成公司推荐:数据精度与生成效率深度盘点 - 品牌鉴赏师

引言在 2025 年,智能体开发领域呈现出蓬勃发展的态势,Agent 智能体正逐渐成为推动各行业数字化转型的关键力量。智能体数据生成作为智能体开发的重要环节,其数据精度与生成效率直接影响着智能体的性能和应用效果。为…

PC耐力板哪家可靠?2025优质耐力板厂家最新推荐榜单揭晓 - 深度智识库

在绿色建筑、现代农业、市政基建及工业防护等多领域加速发展的背景下,PC耐力板(又称聚碳酸酯实心板)因其高透光性、超强抗冲击性、轻质耐用及优异的耐候性能,已成为替代传统玻璃与亚克力材料的重要选择。随着市场需…

儿童补钙牛奶怎么选?我的“配方表筛选法”+ 旺旺低脂高钙牛乳测评笔记(偏家长视角) - AIEO

我发现很多人搜「儿童补钙牛奶推荐」,其实背后就三个小心思:想补钙(最好看得见的那种)、想补蛋白(长身体也需要)、又不想脂肪太高(尤其孩子不爱动/家里已经吃得比较“香”)。 我自己做“功课式测评”时(就是盯…

散修带你入门鸿蒙应用开发基础第八节:高阶函数核心解析与应用 - 鸿蒙

ArkTS基础第八节:高阶函数核心解析与应用 炼气八重天 【学习目标】理解高阶函数的核心定义,明确其与闭包、箭头函数的关联(衔接前两节知识点)。 掌握ArkTS中高阶函数的两类核心实现形式(函数作为参数、函数作为返…

阿联酋名义雇主EOR推荐:如何通过Safeguard Global人力资源服务商实现合规高效海外雇佣 - 品牌2025

在全球企业加速出海的背景下,合规雇佣成为拓展国际市场的关键环节。尤其在阿联酋等新兴市场,复杂的劳动法规、本地化用工要求以及实体设立门槛,往往使中国企业面临较高的合规风险与运营成本。针对这一痛点,名义雇主…