建网站的公司宁夏高端网站建设

diannao/2025/10/21 6:18:02/文章来源:
建网站的公司,宁夏高端网站建设,医院网站需要前置审批,厦门关键词排名优化作为算法工程师的你是否对如何应用大型语言模型构建医学问答系统充满好奇#xff1f;是否希望深入探索LLaMA、ChatGLM等模型的微调技术#xff0c;进一步优化参数和使用不同微调方式#xff1f;现在我带大家领略大模型训练与微调进阶之路#xff0c;拓展您的技术边界#…作为算法工程师的你是否对如何应用大型语言模型构建医学问答系统充满好奇是否希望深入探索LLaMA、ChatGLM等模型的微调技术进一步优化参数和使用不同微调方式现在我带大家领略大模型训练与微调进阶之路拓展您的技术边界 通过阅读文章你可以详细学习LLaMA、ChatGLM等微调的相关知识和实践技巧。理解训练过程中的 Zero 等参数设置、数据准备ChatGPT 训练数据生成流程。 对于微调方式本文将分别以 Lora 方式、Ptuning 方式为例进行演示讲解我们还会讲解合并LoRA 参数与原始参数的方法、Fsdp与Deepspeed 的全参数微调技巧等内容。最后讲解模型效果的测评还将对相关指标进行说明和分析帮助大家掌握有效评估模型性能的方法。下面开始我们的分享 一、大模型分布式训练并行技术 目前训练超大规模语言模型主要有两条技术路线TPU XLA TensorFlow 和 GPU PyTorch Megatron-LM DeepSpeed。前者由Google主导由于TPU和自家云平台GCP深度绑定对于非Google开发者来说 只可远观而不可把玩后者背后则有NVIDIA、Meta、微软等大厂加持社区氛围活跃也更受到群众欢迎。 数据并行Data Parallel, DP 优点可以不受单张GPU显存限制训练更大的模型。 缺点计算/通信效率低。 流水线并行Pipeline Parallel, PP 优点层内计算/通信效率增加 缺点存在空闲等待时间 流水线并行的核心思想是模型按层分割成若干块每块都交给一个设备。在前向传递过程中每个设备将中间的激活传递给下一个阶段。在后向传递过程中每个设备将输入张量的梯度传回给前一个流水线阶段。这允许设备同时进行计算并增加了训练的吞吐量。流水线并行训练的一个缺点是会有一些设备参与计算的冒泡时间导致计算资源的浪费。 数据并行流水线并行如下图 数据并行流水线并行模型并行如下图 二、训练-Deepspeed ZeRO模式 ZeROZero Redundancy Optimizer类似于张量并行进行切分支持多种offload技术。目标优化存储效率的同时还能保持较高的计算和通信效率。 为了能够在比较普通的机器上也能微调大模型我们首先需要分析一下模型训练过程中都有哪些部分需要消耗存储空间。在进行深度学习训练的时候有4大部分的显存开销分别是模型参数Parameters模型参数的梯度Gradients优化器状态Optimizer States以及中间激活值Intermediate Activations。 ZeRO-DP 基于上述问题提出了ZeRO-DP技术即ZeRO驱动的数据并行兼顾数据并行的计算/通信效率和模型并行的空间效率。首先ZeRO-DP会对模型状态进行分区避免了复制模型导致的冗余然后在训练期间使用动态通信调度保留数据并行的计算粒度和通信量也能维持一个类似的计算/通信效率。 ZeRO-DP有三个优化阶段① 优化器状态分区、② 梯度分区、③ 参数分区。 1.优化器状态分区Optimizer State Partitioning, Pos在与数据并行保持相同通信的情况下可以降低4倍空间占用 2.① 梯度分区Gradient Partitioning, Posg在与数据并行保持相同通信量的情况下可以降低8倍空间占用 3.① ② 参数分区Parameter Partitioning, Posgp空间占用减少量与GPU的个数呈线性关系 通信量增加50%。 优化模型占用空间在训练过程中当然模型占用的空间是最大的但是现有的方法中不管是数据并行DP还是模型并行MP都不能很好的解决。数据并行有很好的计算/通信效率但是由于模型复制了多份导致空间利用率很差而模型并行虽然内存利用率高但是由于对模型的进行了很精细的拆分导致计算/通信效率很低。除此之外所有这些方法都静态保存了整个训练过程中所需的所有模型参数但实际上并不是整个训练期间都需要这些内容。 这里假设模型参数fp16、模型梯度fp16和Adam状态fp32的模型参数备份fp32的momentum和fp32的variance。假设模型参数量 Φ 则共需要 2Φ2Φ(4Φ4Φ4Φ)4Φ12Φ16Φ 字节存储。 ZeRO-Offload ZeRO说到底是一种数据并行方案可是很多人只有几张甚至一张卡显存加起来都不够那怎么办呢在操作系统中当内存不足时可以选择一些页面进行换入换出为新的数据腾出空间。类比一下既然是因为显存不足导致一张卡训练不了大模型那么ZeRO-Offload的想法就是显存不足内存来补。在一个典型的服务器上CPU 可以轻松拥有几百GB的内存而每个 GPU 通常只有16或32GB的内存。相比于昂贵的显存内存比较廉价之前的很多工作都是聚焦在内存显存的换入换出并没有用到CPU的计算能力也没有考虑到多卡的场景。ZeRO-Offload则是将训练阶段的某些模型状态从GPU和显存卸载到CPU和内存。当然ZeRO-Offload并不希望为了最小化显存占用而牺牲计算效率 否则的话还不如直接使用CPU和内存因为即使将部分GPU的计算和显存卸载到CPU和内存肯定要涉及到GPU和CPU、显存和内存的通信而通信成本一般是非常高的此外GPU的计算效率比CPU的计算效率高了好几个数量积因此也不能让CPU参与过多的计算。 单卡场景-上图 多卡场景-上图 现在的计算流程是在GPU上面进行前向和后向计算将梯度传给CPU进行参数更新再将更新后的参数传给GPU。为了提高效率可以将计算和通信并行起来GPU在反向传播阶段可以待梯度值填满bucket后一边计算新的梯度一边将bucket传输给CPU当反向传播结束CPU基本上已经有最新的梯度值了同样的CPU在参数更新时也同步将已经计算好的参数传给GPU如下图所示。 到目前为止还都是单卡的场景在多卡场景中ZeRO-Offload可以利用ZeRO-2将优化器状态和梯度进行切分每张卡只保留结合上ZeRO-Offload同样是将这的优化器状态和梯度卸载到内存在CPU上进行参数更新。在多卡场景利用CPU多核并行计算每张卡至少对应一个CPU进程由这个进程负责进行局部参数更新。 并且CPU和GPU的通信量和 N 无关因为传输的是fp16 gradient和fp16 parameter总的传输量是固定的由于利用多核并行计算每个CPU进程只负责 1N 的计算反而随着卡数增加节省了CPU计算时间。 三、利用ChatGPT生成训练数据 如何通过chatgpt生成新的指令 generate_instruction_zh.py Seed {“id”: “seed_task_174”, “name”: “事实核查”, “instruction”: “事实核查 - 根据您的知识和常识告诉我这个陈述是真、假还是未知。”, “instances”: [{“input”: “费城是美国前十大最安全城市之一。”, “output”: “假”}], “is_classification”: true} 指令生成所用到的提示 请你给出20条不同的任务指令列表。这些任务指令将用于GPT模型的训练。 以下是要求 1. 尽量不要重复每个指令的动词以最大限度地提高多样性。 2. 指令的语言可以包含英语与简体中文。 3. 指令的类型应该是多样化的列表中应包括不同类型的任务如生成、分类、编辑等。 4. 以下指令不要输出要求助手创建任何视觉或音频输出要求助手在下午5点叫醒你或设置一个提醒。 5. 指令描述应该是简体中文。 6. 指令应该是1到2句话的长度。既可以是命令句也可以是疑问句。 7. 你应该为指令生成一个适当的输入输入栏应包含为指令提供的具体例子。它应涉及真实的数据不包含简单的占位符。输入应提供实质性的内容使指令具有挑战性不要超过40字。 8. 不是所有的指令都需要输入。例如当一个指令询问事实信息“世界上最高的山峰是什么”就没有必要提供具体的背景。在这种情况下你只需在输入框中写上。 9. 输出应该是对指令和输入的适当回应。确保输出的内容少于50字。 四、LoRA微调 LoRA的实现原理冻结预训练模型权重并将可训练的秩分解矩阵注入到Transformer层的每个权重中大大减少了下游任务的可训练参数数量。直白的来说实际上是增加了右侧的“旁支”也就是先用一个Linear层A将数据从 d维降到r再用第二个Linear层B将数据从r变回d维。最后再将左右两部分的结果相加融合得到输出的hidden_state。 使用LoRA: 1、LoRA模型无法单独使用需要搭配原版LLaMA模型发布的是LoRA权重可以理解为原LLaMA模型上的一个“补丁”两者进行合并即可获得完整版权重。 2、LoRA 与 Transformer 的结合也很简单仅在 QKV attention 中 QKV 的映射增加一个旁路可看下文中具体的 LORA 网络结构而不动MLP模块。基于大模型的内在低秩特性增加旁路矩阵来模拟全模型参数微调LoRA通过简单有效的方案来达成轻量微调的目的可以将现在的各种大模型通过轻量微调变成各个不同领域的专业模型。 五、Ptuning微调 Github:chatglm-ptuning prompt tuning, prefix tuning 和p-tuning v1 有一定的联系,这几种方法都是基于优化continuous prompt之前的工作都是手动设计模板或者自动生成模板统称discrete prompt。discrete prompt有一定的局限性找出的结果可能不是最优而且对token的变动十分敏感所以之后的研究方向也都是连续空间内的prompt。 结语 文章中介绍了微调的部分核心知识限于文章的篇幅关于训练微调-LLaMA代码结构、工具配置-Accelerate、工具配置-Deepspeed、工具配置-FSDP、训练微调-全参数微调、训练微调-LoRA微调、训练微调-Ptuning微调、结果评估的详细的讲解和代码实操会在我们的课程中进行详细的阐述。希望文章能够对您的工作有所帮助和启发。 技术交流群 前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~ 建了技术答疑、交流群想要进交流群、需要资料的同学可以直接加微信号mlc2060。加的时候备注一下研究方向 学校/公司CSDN即可。然后就可以拉你进群了。 方式①、添加微信号mlc2060备注技术交流 方式②、微信搜索公众号机器学习社区后台回复技术交流 资料1 资料2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/91986.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上海电子商城网站制作动易网站官网

原标题:Linux 上如何安装并切换最新版本的 Python 3.6如果你安装了 Linux 系统,正在学习 Python 并想要使用最新的版本的话,那么这篇文章就是为你而写的。-- ShekinPython是 Linux 中一种最流行的编程语言。它被写成了各种工具和库。除此之外…

wordpress程序建站wordpress 模板丢失.

今天跟大家分享我个人感染奥密克戎毒株第二天的经历和感受。早上7点多自然醒来,已经没有四肢乏力的感觉,但是身体的本能还是告诉我不愿意动弹。由于第一天躺着睡了一天,确实是躺得腰酸背疼的。起床量了一下体温36.4正常,决定今天不…

手机怎么做网站免费的建设网站选多大的空间合适

3. Residual Denoising Diffusion Models 该文提出一种残差去噪扩散模型(RDDM)可用去图像生成和图像修复(如去除阴影、去雨、暗光提升等)。该文最大的特点是提出一种双扩散模型,在扩散过程中不仅包含噪声 ϵ \epsilon …

濮阳做网站多少钱制作图片马

1.系统设计 基于STM32单片机的智能家居系统设计与实现的具体任务: (1)可以实现风扇、窗帘、空调、灯光的开关控制; (2)具有语音识别功能,可以通过语音控制家电; (3&a…

wordpress 无法登录电子商务seo是什么

1894. 找到需要补充粉笔的学生编号 一个班级里有 n 个学生,编号为 0 到 n - 1 。每个学生会依次回答问题,编号为 0 的学生先回答,然后是编号为 1 的学生,以此类推,直到编号为 n - 1 的学生,然后老师会重复…

网站百度没收录北京商场skp

概念: 空间复杂度也是一个数学表达式,是对一个算法在运行过程中临时占用存储空间大小的量度 。 空间复杂度不是程序占用了多少bytes的空间,因为这个也没太大意义,所以空间复杂度算的是变量的个数。空间复杂度计算规则基本跟实践复…

淘宝客做网站备注怎么写的wordpress文章图片目录

小程序配置 开发 - 开发管理 - 开发设置-普通链接二维码打开小程序 配置好的截图 如下:二维码规则建议是自己的域名 /mini/ 功能页面 pages/index/index 是为了方便跳转其他页面 记得把校验文件发给后端 web 端处理 二维码格式为:二维码规则/功能页…

如何创建自己公司的网站公司企业网站开发

Flink系列之:Joins 一、Joins二、Regular Joins三、INNER Equi-JOIN四、OUTER Equi-JOIN五、Interval Joins六、Temporal Joins七、事件时间 Temporal Join八、处理时间 Temporal Join九、时态表函数连接十、Lookup Join十一、数组展开十二、表功能 一、Joins 适用…

手机网站 分享按钮wordpress搬家后500

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明 文章编号&am…

外贸必看网站免费ppt模板哪里下载

摘要 系统以单片机STC89C52 芯片作为主控模块,可以对窗帘实现光照度检测、语音识别、 按键手动等智能控制功能。光照度模块采集室外光照度数据上传至单片机,单片机发送控制指令 驱动步进电动机驱动模块,控制步进电动机转动实现窗帘的自动开合,LCD 显示屏显示实时的温 度和时…

泰安专业网站开发公司推广专员

Description 给出两棵 n 结点的有标号树。 每次操作删去第一棵树的一条边,再加上一条边,需要保证此时还是一棵树。 构造一种操作序列,将第一棵树变成第二棵树,使得操作数最小。 n ≤ 51055 \times 10^55105 Solution 显然&…

有域名怎么发布网站吗wordpress如何修复

在本文中,我们将讨论C STL中ratio_equal()函数的工作,语法和示例。什么是ratio_equal模板?ratio_equal模板内置在C STL中,该模板在头文件中定义。ratio_equal用于比较两个比率。该模板接受两个参数,并检查给定的比率…

哪个做企业网站手机参数查询网站

gnd、vcc、clk、miso、rst、mosi、cs 转载于:https://www.cnblogs.com/scrazy/p/7892733.html

我的世界电影怎么做的视频网站网站制作的基本流程

昨天深夜,有一个朋友加QQ说他电脑出了问题,不知道咋的就变成了提示“未发现NVIDIA控制面板,从Microsoft Store中安装NVIDIA控制面板” 里面数据还是挺重要的,问是否有办法操作,具体看图; 经过询问得知,客户是在安装一个软件,反复运行后不出现,以为中毒了,就重启了一下…

东营可以做网站的公司在哪建个商场网站

这是我的第 56 篇原创文章随着 JDK 1.8 Streams API 的发布,使得 HashMap 拥有了更多的遍历的方式,但应该选择那种遍历方式?反而成了一个问题。本文先从 HashMap 的遍历方法讲起,然后再从性能、原理以及安全性等方面,来…

网站建设明细价格表营销推广方式有哪些

问题引入 前一篇文章,菜鸟找到了SQL on Linux Docker容器销毁后,容器中的数据库文件可以得以保留的方法,老鸟非常开心。所以,今天又提出了新的问题:“鸟儿,如果我想把我的数据库从SQL on Windows迁移到SQL …

团购网站管理系统求个网站好人有好报2023

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

城市建设模拟游戏网站360优化大师官方下载最新版

正题 题目链接:https://uoj.ac/problem/84 题目大意 有nnn个点的一棵树,111为根,两个人从根节点往下走(只能从深度小的点走到深度大的点)。 两个人每一秒都可以一条边(也可以不移动),或者不消…

怎么查一个网站有没有做301门户做网站

中国人民银行授权全国银行间同业拆借中心公布,2024年2月20日贷款市场报价利率(LPR)为:1年期LPR为3.45%,5年期以上LPR为3.95%。以上LPR在下一次发布LPR之前有效。 2024年1月22日贷款市场报价利率(LPR&#…

乡镇信息公开网站建设制度网站开发相关专业

最近在做python的web开发(原谅我的多变,好东西总想都学着。。。node.js也是),不过过程中总遇到些问题,不管是web.py还是django,开发起来确实没用php方便,毕竟存在的时间比较短,很多不完善的地方。比如我在调…