大语言模型真的需要那么多层吗?

news/2025/10/12 12:50:48/文章来源:https://www.cnblogs.com/codeshare1135/p/19136500

大语言模型真的需要那么多层吗?

研究发现,70%的注意力头和20%的前馈网络可以被移除,而对上下文学习的影响微乎其微,这表明大型语言模型存在训练不足的情况。

研究背景

大型语言模型已经存在一段时间,但随着ChatGPT的出现,今年真正引起了公众的广泛关注。大型语言模型通常在海量数据上进行预训练;最近的变体还通过强化学习进行了调整,以遵循指令并整合人类反馈。

这些大型语言模型展示的一个迷人能力是上下文学习,即模型只需通过跟随提供的几个(有时甚至是零个)良好示例,就能学会执行新输入的任务。在这种学习范式下,当预训练数据量固定时,更大的大型语言模型被证明比小型模型更能执行各种任务。

在今年计算语言学协会会议上发表的一篇论文中,我们从架构可解释性的角度研究了模型规模对上下文学习的重要性。我们特别提出了一个问题:执行上下文学习真的需要所有大型语言模型组件吗?

研究方法

我们将对OPT-66B模型的案例研究作为调查方式。OPT-66B是一个拥有660亿参数的的大型语言模型,去年由某机构开源,作为GPT-3的开放复制品(在我们研究时是当时最大的公开可用的仅解码器大型语言模型)。

我们发现模型的很大一部分可以被丢弃而不影响性能,这表明OPT-66B以及很可能其他著名的大型语言模型都存在训练不足的情况。我们相信我们的发现有助于通过识别(或更普遍地提供识别方法)可能需要更好训练的架构元素来构建更强大的大型语言模型。

大型语言模型构建模块

现代大型语言模型使用Transformer架构,该架构依赖于注意力机制:模型学习预测在预测当前token时应该关注序列中的哪些先前token。

具体来说,大型语言模型使用多头注意力,意味着它们并行应用多个注意力机制或头。OPT-66B有64层,每层有72个注意力头。多头注意力的输出在每一层通过一个单独的前馈网络。

我们分析OPT-66B的第一种方法是为每个注意力头和前馈网络分配一个分数,表明它们对给定任务的重要性。基于这些分数,我们随后对模型进行了剪枝。

研究发现

我们发现重要的注意力头主要聚集在模型的中间层,而重要的前馈网络主要在后层。当高达70%(在OPT-66B中约157亿参数)的注意力头被移除时,在14个不同自然语言处理数据集/任务上执行零样本/少样本上下文学习的能力几乎保持不变。

对于上下文学习重要(和不重要)的注意力头似乎在任务和样本数量上也存在重叠。这表明一个常见的与任务无关的注意力头子集负责上下文学习。我们还发现,高达20%的前馈网络(约85亿参数)可以被移除,而对零样本/少样本上下文学习的性能影响极小。

我们的第二种分析技术是量化OPT-66B中所有注意力头执行与上下文学习相关的两种任务无关的原始操作的能力。这些原始操作是前缀匹配和复制:显式搜索上下文中当前token的先前出现并复制其后继token(其后缀)。

专门用于这两种操作的头首先由机器学习研究公司Anthropic发现,并称为归纳头。我们发现OPT-66B中的一小部分头对这两种原始操作都具有显著的分数。我们还发现这些头与之前识别的特定任务重要的头有不同程度的重叠。这表明归纳头能够执行与上下文学习相关的更复杂行为,例如潜在概念匹配,但它们并非唯一具有这种能力的头。

研究意义

我们最重要的观察是,似乎只有核心的注意力头和前馈网络核对于上下文学习很重要,这表明OPT-66B以及很可能其他著名的大型语言模型都存在训练不足的情况。这也强化了最近的研究,这些研究质疑在扩大模型规模时保持预训练数据量固定的效果,表明为了获得最佳性能,所见预训练数据量必须与模型本身同步扩展。看看自我们研究发布以来新发布的大型语言模型变体(例如那些调整以遵循指令的模型)在此类分析中的表现将会很有趣。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/935366.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s-网络

k8s-网络k8s网络1.同一node上pod通讯:Kubernetes为每个Pod分配一个唯一的集群内部IP地址(Pod IP) POD IP :Pod 的唯一网络标识,用于容器间直接通信。动态分配,Pod 删除后 IP 回收。​集群外无法直接访问​ 由 ​C…

2025年微滤机厂家最新权威推荐榜:高效过滤与技术创新口碑之

2025年微滤机厂家最新权威推荐榜:高效过滤与技术创新口碑之选行业背景深度解析在水处理行业快速发展的当下,微滤机作为重要的固液分离设备,在市政供水、工业废水处理、水产养殖等领域发挥着关键作用。随着环保要求的…

swing修改jbutton的文字颜色

swing修改jbutton的文字颜色通过修改前景色来实现: jButton.setForeground(Color.red);

上海寿衣厂家最新权威推荐榜:品质工艺与贴心服务口碑之选

上海寿衣厂家最新权威推荐榜:品质工艺与贴心服务口碑之选在传统文化与现代殡葬服务融合发展的背景下,上海寿衣行业呈现出专业化、品质化的发展趋势。作为人生最后一程的重要礼仪用品,寿衣不仅承载着对逝者的尊重,更…

2025上海经侦律师事务所权威推荐榜:专业实力与胜诉口碑深度

2025上海经侦律师事务所权威推荐榜:专业实力与胜诉口碑深度在当今复杂的经济环境中,经济犯罪案件呈现出专业化、隐蔽化、跨区域化的新特点。企业面临的经济侦查案件不仅涉及金额巨大,更关乎企业声誉和未来发展。经侦…

Docker从网络管理到容器优化 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

从零实现 VGG-16

博客地址:https://www.cnblogs.com/zylyehuo/参考视频:PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】需要用到的库torch安装有问题可参考网上教程pip install torchprotobufpip install protobufmodel.p…

完整教程:vlan Tag 概念及题目

完整教程:vlan Tag 概念及题目2025-10-12 12:28 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importa…

WPF上位机入门教程

WPF上位机入门教程 顾名思义,是一个WPF上位机入门的教程,包含WPF基本控件使用方法、控件库、MVVM框架、IOC框架、日志、XML、串口、Modbus、PLC、SocketServer、SQLite、曲线绘制、文档导入导出等内容。 控件库Handy…

潘院士高瞻远瞩:三大趋势勾勒中国AI发展路径,元人文构想恰逢其时

潘院士高瞻远瞩:三大趋势勾勒中国AI发展路径,元人文构想恰逢其时 拜读潘云鹤院士在2025网易未来大会上的深刻洞见,深受启发。院士提出的三大趋势——专业大模型崛起、具身智能泛化深化、AI引领平台经济2.0——精准描…

2025家居MES厂家最新权威推荐榜:智能制造与高效管理深度

2025家居MES厂家最新权威推荐榜:智能制造与高效管理深度随着工业4.0时代的深入发展,家居制造业正迎来智能化转型的关键时期。制造执行系统(MES)作为连接企业计划层与控制层的核心枢纽,在家居行业的数字化进程中扮…

开源 C# 快速构建(七)通讯--串口

开源 C# 快速构建(七)通讯--串口pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&…

2025新能源冲压件厂家权威推荐榜:技术革新与品质保障深度解

2025新能源冲压件厂家权威推荐榜:技术革新与品质保障深度解新能源汽车产业的蓬勃发展带动了上游零部件领域的全面升级,其中冲压件作为电池包结构、电机壳体等关键部件的核心组成部分,其技术标准与品质要求正经历着革…

浮点数的相等性判断

在编程中,浮点数(如 C/C++ 中的float、double,Python 中的float)的赋值和相等性判断需要特别注意。因为浮点数在计算机中是近似表示的,直接使用==判断相等可能导致逻辑错误。一、浮点数的相等性判断 禁止直接使用…

ubuntu18

deb http://security.debian.org/debian-security buster/updates main 第三步:apt-get update之后若出现下面提示: 由于没有公钥,无法验证下列签名: NO_PUBKEY 112695A0E562B32A NO_PUBKEY 54404762BBB6E853 sudo…

2025国庆dp

经典例题 摆渡车 设fi表示i这个时刻发车最小答案,枚举上一次发车的时间j,容易转移 但这是O(t^2) 考虑优化 1.斜率优化 2.发现n,m<t,设计fi这种状态很浪费 优化1:若两次发车间隔>2m,完全可以再发一辆车,于是…

2025数控锯床厂家权威推荐榜:精密加工与高效生产口碑之选

2025数控锯床厂家权威推荐榜:精密加工与高效生产口碑之选在制造业转型升级的浪潮中,数控锯床作为金属加工领域的关键设备,其技术水平与性能表现直接影响着生产效率和产品质量。随着工业4.0时代的深入发展,数控锯床…

Java集成SaToken构建登录

Java集成SaToken构建登录pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &q…

FFmpeg开发笔记(八十二)使用国产直播服务器smart_rtmpd执行推流操作

​《FFmpeg开发实战:从零基础到短视频上线》一书的“10.2.2 FFmpeg向网络推流”介绍了轻量级流媒体服务器MediaMTX,通过该工具可以测试RTSP/RTMP等流媒体协议的推拉流。不过MediaMTX的功能比较简单,也不方便个性化…