网站后期维护包括网线制作图解

news/2025/9/26 19:01:58/文章来源:

网站后期维护包括,网线制作图解,潍坊搜索引擎优化,网站做彩票犯法吗基于昇腾910B训练万亿参数的语言模型 Abstract 在本工作中#xff0c;作者开发了一个系统#xff0c;该系统在Ascend 910 AI处理器集群和MindSpore框架上训练了一个万亿参数的语言模型#xff0c;并提出了一个含有1.085T参数的语言模型#xff0c;名为PanGu-。从PanGu-[…nbsp; nbsp; 基于昇腾910B训练万亿参数的语言模型 nbsp; nbsp; Abstract 在本工作中作者开发了一个系统该系统在Ascend 910 AI处理器集群和MindSpore框架上训练了一个万亿参数的语言模型并提出了一个含有1.085T参数的语言模型名为PanGu-。从PanGu-[1]继承了参数作者将密集的Transformer模型扩展为稀疏模型采用_Random Routed Experts_RRE方法并通过使用_Expert Computation and Storage Separation_ECSS高效地在329B个 Token 上训练模型。这导致了通过异构计算使训练吞吐量提高了6.3倍。作者的实验发现表明PanGu-在多种中文NLP下游任务的零样本学习中提供了最先进的表现。此外在开放领域对话、问答、机器翻译和代码生成应用数据上的微调也展示了其强大的能力。 1 Introduction 大型语言模型LLM[2, 3, 1, 4, 5, 6, 7, 8, 9, 10等]在自然语言理解、生成和推理等领域展现了前所未有的能力和潜力。通过利用大量文本数据语言模型的性能随着计算预算和模型参数的增加而提升展示了强大的零样本/少样本学习能力甚至涌现能力[4, 11]。自GPT-3[2]以来已有多个拥有数百亿参数的大型语言模型发布包括但不限于Megatron-Turing NLG[12]、PanGu-[1]、ERNIE 3.0 Titan[8]、Gopher[5]、PalLM[4]、OPT[6]、Bloom[10]和GLM-130B[9]。研究行人开始构建拥有超过一万亿参数的更大语言模型。这通常是通过利用稀疏激活模型如Mixture-of-ExpertsMoE[13]来实现的。在现有的万亿参数模型中有几项值得注意的工作如Switch-C[14]、GLaM[15]、MoE-1.1T[16]、Wu Dao 2.0[17]和M6-10T[18]。然而只有少数发布了在广泛任务上的全面评估结果并同时实现了预期的性能。根据作者的经验主要的困难在于扩展效率。近期语言模型扩展研究[19, 20, 21]揭示LLM的最佳性能需庞大训练数据与计算预算支撑。本研究致力于构建可扩展模型架构与高效分布式训练系统实现高吞吐量数据消费为模型训练提供强大动力。模型扩展。大型语言模型的性能预期会随着模型大小的增加而提升。与训练密集型Transformer模型的昂贵计算成本相比如Mixture-of-Experts (MoE) [13, 14, 15, 22]这样的稀疏架构被认为是一个吸引人的选择可以在不引起计算成本线性增长的情况下扩展模型大小。然而MoE模型存在诸如工作负载不平衡和全局通信延迟等问题。此外如何将现有密集模型与MoE结合以及在每个层级分配多少专家仍然是待解决的问题。因此设计一个既具有高性能又高效训练的万亿参数稀疏模型是一个重要但具有挑战性的任务。系统扩展。如DeepSpeed 4等框架已被提出以支持训练万亿参数模型。实际上主要的障碍往往在于有限的计算预算或者更具体地说能够使用的加速设备例如GPU、NPU、TPU的数量。通过利用张量并行性[23]、流水线并行性[24]、零冗余优化器[25]和重物质化[26]等技术实践者可以在数千个加速设备上以可行的批量大小的训练万亿参数模型。另外实践者可以通过利用异构计算技术例如将部分计算卸载到宿主设备[27]来减少计算资源的数量。然而当前技术不可避免地因宿主设备与设备间缓慢的带宽以及与加速设备相比CPU较弱的计算能力而阻碍了训练吞吐量这阻止了为大型语言模型提供合理数量的数据以及实现最佳性能。因此如何在有限的计算预算下高效地扩展系统性能对大型语言模型的性能至关重要。在本工作中作者介绍了PanGu-一个拥有1.085万亿参数的稀疏架构大型语言模型。作者在MindSpore 5框架下开发PanGu-模型并在仅包含512个Ascend 910 AI加速器的集群上对其进行训练[28]在100天内使用了3290亿个 Token 。PanGu-从PanGu-[1]继承了参数并采用Transformer解码器架构通过随机路由专家RRE进行扩展。与传统的MoE不同RRE采用两级路由。在第一级专家按领域或任务分组在第二级 Token 随机且均匀地映射到每个组中的专家而不使用MoE中的任何可学习门控函数。通过RRE的设计可以轻松地从PanGu-中提取子模型用于各种下游应用如对话、翻译、代码生成或一般的自然语言理解。为了使训练系统高效且可扩展作者提出了专家计算与存储分离ECSS机制该机制在512个Ascend 910加速器的集群上训练1.085万亿的PanGu-时实现了69905 tokens/s的观察吞吐量并且大幅减少了主机到设备和设备到主机的通信以及优化器更新计算。总体而言与具有相同超参数但采用MoE架构的模型相比训练吞吐量提高了6.3倍。通过消耗超过40种自然语言和编程语言的3290亿个 Token PanGu-在中文领域的子模型在零样本设置下没有进行任何多任务微调或指令调整就在六个类别的16个下游任务上显著优于包括拥有13B参数的PanGu-和拥有260B参数的ERNIE 3.0 Titan[8]在内的先前SOTA模型。作者还对PanGu-在对话、机器翻译和代码生成等应用领域进行了微调后的性能进行了测试。PanGu-在相应领域优于SOTA模型。技术报告精简概览第2部分揭示PanGu-模型设计理念与架构第3部分聚焦数据集收集与组织第4部分详述系统设计与加速技术第5部分展示PanGu-模型的卓越实验成果。 Design Principles PanGu-旨在实现以下目标性能在多个领域和任务上达到最先进的NLP性能。效率在适度的集群上以最大系统性能训练万亿参数模型。可用性可扩展到各种领域或任务无需从零开始重新训练模型。部署易于定制并在各种实际环境中部署。达成上述目标极具挑战性。语言模型需广泛适应多领域参数庞大依赖大数据与规模法则[19, 20, 21]训练。但训练大型模型需高端集群与成本效益目标相悖。此外模型规模扩大增加部署成本与成本最小化目标冲突。如何平衡各项挑战是当前面临的关键问题。面对训练阶段高昂的计算成本作者追求实用高效的模型。为此提出在多个领域训练模型并借助持续学习模式实现向任意领域扩展的潜力虽受限于计算资源但目标清晰追求实际应用的高效性。 PanGu模型坐拥万亿参数在训练中融合多元数据。然而部署时携带庞大参数对每应用并非必要甚至难以实现。为此该模型能灵活分组与分离参数适配各种训练与部署需求优势显著。 2.2.1 Overview 盘古运用自回归语言建模搭载堆叠Transformer解码层与独特Query层。其架构灵活多变M层全局共享N层含Query层按需激活。每层RRE配备G组K位专家每组专家数量各异。这种创新设计赋予盘古三种工作模式展现其卓越性能与广泛适应性。图1盘古架构融合密集与稀疏Transformer层。下部M层为跨领域共享密集层上部N层通过随机路由专家RRE激活稀疏前馈部分。各领域标记独特嵌入实现高效跨领域学习与处理引领架构创新潮流。混合模式当且时模型包含稀疏RRE层和密集层。密集模式当或时架构将简化为密集的盘古-模型。稀疏模式当且时架构将是一个稀疏模型。在万亿参数建模实践中作者巧妙运用混合配置将共享参数置于输入层附近专家参数则置于输出层顶端形成层次分明的结构。经过基准测试此策略实现了最低的语言建模困惑度。作者认为底层捕捉一般知识而顶层则专注于具体知识的抽象学习。在标记嵌入层作者根据领域差异选择不同嵌入矩阵确保模型的高效性与专业性。 2.2.2 Random Routed Experts 在顶层结构中作者运用多条件激活的前馈子层专家替代传统层遵循专家混合MoE模式实现高效模型设计。在设计MoE架构时如何有效将标记分配给专家是核心挑战。PanGu-采用的随机路由专家RRE机制灵感源自哈希层通过两级路由策略实现。首先标记按域映射至候选专家组随后基于随机初始化的标记-专家路由图从中挑选特定专家处理。此策略确保每层独立初始化映射以实现计算资源的均衡分配。 RRE与常用的可学习路由器相比具有几个优点。图2展示PanGu-中的随机路由专家RRE标记先按域路由至专家组随后在域内随机分配至一专家无需学习路由器实现高效路由分配。在训练期间PanGu-允许在不影响其他专家的情况下增加、修改或移除特定域的专家。这个属性使得PanGu-在解决常见的大灾难性遗忘问题上非常灵活这对于终身学习或连续学习至关重要。* 在大多数实际部署环境中部署具有一万亿个参数的模型是不必要或不可行的。PanGu-允许根据实际需求提取特定域的子模型并且只部署子模型。子模型可能包含数十亿个参数但仍然保持原始模型在目标域上的预测能力。使用这种提取和部署操作作者可以轻松地为多个工业应用部署模型。传统MoE模型依赖全局通信操作以传输数据。通过引入两级路由我们实现了专家间的域内通信避免了跨域数据交换。此举显著减少了全局通信操作节省通信量并大幅降低了端到端训练延迟提升了模型效率。可学习路由器因计算量大及专家间负载不平衡训练过程易不稳定。RRE优化方案无需额外参数通过随机初始化的路由表平衡专家负载有效解决上述问题确保训练稳定高效。 RRE需要一个在预训练之前初始化的路由图算法1描述了作者如何构建路由表。算法1随机路由专家RRE机制中的路由表构建过程。 Collection 为彰显PanGu-模型多领域高效独立学习力我们集纳了40个领域数据集。其中中文、英文、双语及代码四大主流领域数据丰富另有26种单语自然语言、6种编程语言及金融、健康、法律、诗歌等多样数据充分展现模型广泛适应能力。对于中文文本作者收集了WuDaoCorpora 2.0 [30]包含200GB和CLUECorpus2020 [31]包含100GB。对于英文文本作者收集了Pile数据集[32]包含800GB和C4数据集[3]包含750GB。对于代码作者使用了在PanGu-Coder [33]中使用的Python代码147GB以及来自GHTorrent [34]的Java代码161GB这些代码通过文件大小小于1MB、每行平均字符数小于200、每行最大字符数小于1000和它们的可编译性进行了过滤。然后这些收集的英文、中文和代码文本数据被采样并分配到四个主要领域。最终作者在四个主要领域获得了超过3000亿个标记。四个主要领域的数据分布和数据源的详细统计在表1中呈现。对于剩余的36个领域26个单语领域的数据主要来自CCAligned [35]和CCMatrix [36]。与上述代码领域类似6个编程语言领域的数据通过GHTorrent [34]收集并通过类似的方式进行过滤。金融领域的数据通过标签从WuDaoCorpora 2.0 [30]中过滤得到。健康领域的数据来自Chinese MedDialog Dataset [37]。法律领域的数据是从CAIL2018 [38]中采样的。诗歌领域的数据集来自Wernero-Poetery 6。最终作者为这36个领域采样了超过250亿个标记。 Format 四大领域均可灵活适应多元下游任务。为精准支持特定领域本文依据领域特性定制数据格式。针对中英文领域我们在训练样本末尾增设标记清晰界定文本训练边界。在双语领域依据训练样本源自中文或英文数据集于样本开头添加或标记并于结尾处插入统一标记以提升数据处理效率。在其余36个领域中金融、健康、法律和诗歌的26个单语领域数据格式与中文英文一致而6个编程语言领域则与代码领域保持相同的数据格式。对于一个格式化数据集假设它包含n个训练样本。为了充分利用Ascend 910集群的计算能力并在预训练阶段加速训练作者将数据集中的所有样本拼接成一个序列然后根据固定长度1024从拼接的序列中截取训练实例如图6所示。在微调阶段对于格式化数据集中的每个训练样本如果长度小于固定长度作者使用特殊标记将样本填充到固定长度。如果长度大于固定长度则截断多余的部分。图7展示了这个过程。与PanGu-模型不同PanGu-模型的每个训练样本包含两个字段训练实例的标记ID输入序列及其领域ID。领域ID表示训练实例属于哪个领域。PanGu-模型的RRE层通过领域ID决定将训练标记路由到哪个专家。 4 System 盘古-Σ是使用MindSpore 1.6框架7实现的并在512个Ascend 910加速器也称为Ascend 910 NPU上进行训练。训练一个万亿参数的语言模型提出了多个挑战。首先它在训练过程中需要巨大的内存。尽管稀疏架构可以有效节省计算量但它并没有减少内存消耗作者仍然需要在加速器内存中存储所有参数和优化状态。假设使用Adam优化器[39]和混合精度训练[40]一个1T模型通常仅用于参数、梯度和优化器状态就需要总共16TB的内存。在训练过程中模型还需要额外的内存用于输入数据、网络激活、通信缓冲区和临时变量。作者估计使用合理的批处理大小训练一个拥有1万亿参数的盘古-Σ模型需要超过32TB的内存并需要超过1000个Ascend 910加速器或配备32GB高带宽内存HBM的NVIDIA V100 GPU。作者没有将大量硬件资源用于扩大模型规模而是致力于使用512个Ascend加速器合理大小的集群来训练盘古-Σ。为此作者采用了异构训练并将优化器状态卸载到CPU[27]。启用异构训练后所有优化器状态从加速器移动到具有750GB主机内存和鲲鹏920 CPU 8的主机作者可以将整个训练过程放入集群中。其次在启用原始优化器卸载后系统吞吐量是不可接受的。根本原因仍然是大量的参数。梯度和更新的参数需要通过缓慢的主机到设备和设备到主机的通信进行交换CPU需要遍历所有参数并更新它们。为了提高训练吞吐量作者利用了盘古-Σ架构的稀疏特性。由于盘古-Σ使用稀疏架构其大部分参数是条件激活的优化器在一个迭代中只需要更新部分专家。因此作者提出了图8所示的专家计算与存储分离ECSS方法。在专家计算与存储分离中作者将专家视为知识数据库用于存储不同任务或领域的特定知识。在每次迭代中具有特定领域的不同 Token ID会稀疏激活专家。在MindSpore中作者使用查找操作符来选择被激活的专家的部分并在反向计算中稀疏更新它们的参数。在优化器CPU卸载计算中MindSpore将FP16参数从主机CPU复制到NPU在NPU上计算梯度将FP16梯度从NPU移动到CPU并在主机CPU上计算优化器状态和更新参数。当专家稀疏比率较低如时计算成本仅为全模型的大约10%。除了采用Ascend-KunPeng稀疏异构计算的ECSS之外作者还采用了MindSpore和CANN 9提供的其他并行训练和加速技术。作者对所有的注意力和前馈层使用8路模型并行64路专家并行不复制以及非专家部分使用64路数据并行。为了进一步优化内存占用还采用了重新物质化[26]和优化器并行[25]来减少峰值内存消耗。作者还使用FastGelu和融合的LayerNorm来加速逐点计算。通过结合所有这些技术与原始的PanGu-异构训练相比作者实现了6.3倍的吞吐量提升. nbsp; -对此您有什么看法见解- -欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/918690.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！