平顶山集团网站建设模板免费网站建设

bicheng/2026/1/18 20:24:10/文章来源:
平顶山集团网站建设,模板免费网站建设,天津网站建设公司推荐,网站建设收费流程现在#xff0c;您已经了解了如何调整和对齐大型语言模型以适应您的任务#xff0c;让我们讨论一下将模型集成到应用程序中需要考虑的事项。 在这个阶段有许多重要的问题需要问。第一组问题与您的LLM在部署中的功能有关。您需要模型生成完成的速度有多快#xff1f;您有多… 现在您已经了解了如何调整和对齐大型语言模型以适应您的任务让我们讨论一下将模型集成到应用程序中需要考虑的事项。 在这个阶段有许多重要的问题需要问。第一组问题与您的LLM在部署中的功能有关。您需要模型生成完成的速度有多快您有多少计算预算可用您是否愿意为改善推理速度或降低存储空间而牺牲模型性能 第二组问题与您的模型可能需要的额外资源有关。您是否打算让您的模型与外部数据或其他应用程序进行交互如果是的话您将如何连接到这些资源 最后还有一个问题即您的模型将如何被使用。您的模型将通过什么样的预期应用程序或API界面来使用 让我们首先探讨一些在将模型部署到推理之前用于优化模型的方法。 虽然我们可以将几节课用于讨论这个主题但本节的目标是为您介绍最重要的优化技术。大型语言模型在计算和存储要求方面提出了推理挑战以及确保消费应用程序具有低延迟。无论是在本地部署还是部署到云上当部署到边缘设备时这些挑战都会更加突出。 提高应用程序性能的主要方法之一是减小LLM的大小。这可以允许模型更快地加载从而减少推理延迟。但是挑战在于在保持模型性能的同时减小模型的大小。对于生成模型某些技术比其他技术效果更好准确性和性能之间存在权衡。在本节中您将了解三种技术。 蒸馏使用一个较大的模型即教师模型来训练一个较小的模型即学生模型。然后您可以使用较小的模型进行推理以降低存储和计算预算。与量化感知训练类似后期训练量化将模型的权重转换为较低精度的表示例如16位浮点或8位整数。如您在课程第一周学到的那样这会减小模型的内存占用。第三种技术模型修剪删除了对模型性能贡献不大的冗余模型参数。让我们更详细地讨论这些选项。 模型蒸馏是一种侧重于使用较大的教师模型来训练较小的学生模型的技术。学生模型学会统计上模仿教师模型的行为可以是在最终预测层或模型的隐藏层中。 这里我们将重点放在第一种选项上。您可以使用您的微调LLM作为教师模型为学生模型创建一个较小的LLM。您冻结教师模型的权重并使用它来为您的训练数据生成完成。同时您使用学生模型为训练数据生成完成。通过最小化称为蒸馏损失的损失函数来实现教师和学生模型之间的知识蒸馏。为了计算这个损失蒸馏使用了由教师模型的softmax层产生的标记概率分布。 现在教师模型已经在训练数据上进行了微调。因此概率分布可能与基本事实数据非常接近标记中的令牌不会有太大的变化。这就是为什么蒸馏应用了一个小技巧即在softmax函数中添加温度参数。如您在第一课中学到的温度越高模型生成的语言的创造力就越大。 通过一个大于一的温度参数概率分布变得更广泛峰值不那么尖锐。 这种较软的分布为您提供了一组与基本事实标记相似的标记。 在蒸馏的上下文中教师模型的输出通常被称为软标签 学生模型的预测被称为软预测。 同时您训练学生模型生成基于您的基本事实训练数据的正确预测。在这里您不会改变温度设置而是使用标准的softmax函数。蒸馏将学生和教师模型之间的损失和学生损失结合起来通过反向传播来更新学生模型的权重。 蒸馏方法的关键好处是可以在部署中使用较小的学生模型而不是教师模型。 在实践中蒸馏对生成解码器模型通常不太有效。通常对仅编码器模型如具有大量表示冗余的Bert模型更有效。请注意使用蒸馏您训练了一个第二个较小的模型用于推理。您没有以任何方式减小初始LLM的模型大小。 接下来让我们看看下一个可以实际减小LLM大小的模型优化技术。在第一周您已经在培训的上下文中介绍了第二种方法即量化感知训练Specifically Quantization Aware Training简称QAT。 然而一旦模型训练完毕您可以执行后期训练量化Post Training quantization简称PTQ以优化部署。PTQ将模型的权重转换为较低精度的表示例如16位浮点或8位整数以减小模型大小和内存占用以及模型服务所需的计算资源。一般来说包括激活的量化方法对模型性能的影响较大。 量化还需要额外的校准步骤以统计捕获原始参数值的动态范围。 与其他方法一样存在权衡因为有时量化会导致模型评估指标略微下降。然而这种降低通常可以抵消成本节省和性能提高的成本。 最后一个模型优化技术是修剪Pruning。在高层次上目标是通过消除对总体模型性能贡献不大的权重来减小推理的模型大小。这些权重的值非常接近或等于零。请注意一些修剪方法需要对模型进行全面重新训练而其他方法属于参数高效微调的范畴例如LoRA。还有一些方法专注于后期修剪。在理论上这可以减小模型的大小并提高性能。然而在实践中如果只有一小部分模型权重接近零那么模型的大小和性能可能没有太大影响。 量化、蒸馏和修剪都旨在减小模型大小以提高推理时的模型性能而不影响准确性。优化您的模型以供部署将有助于确保您的应用程序运行良好并为用户提供最佳体验。 Reference https://www.coursera.org/learn/generative-ai-with-llms/lecture/qojKp/model-optimizations-for-deployment

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/89108.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开发网站的公司同个主体新增网站备案

在Python的编程世界里,循环结构犹如一把神奇的钥匙,开启高效处理数据和重复执行任务的大门。它赋予程序员强大的力量,让代码充满活力。Python主要有两种类型的循环语句:for循环和while循环。 一、for循环 for循环通常用于遍历一个…

临淄网站建设公司discuz修改网站标题

下拉菜单是移动应用交互中一种常见的交互方式,可以使用下拉列表来展示多个内容标签,实现页面引导的作用。在Flutter开发中,实现下拉弹框主要有两种方式,一种是继承Dialog组件使用自定义布局的方式实现,另一种则是使用官方的PopupMenuButton组件进行实现。 如果没有特殊的…

网站做抽奖活动wordpress提示框插件

1.二次规划 1.1 二次规划的定义 若某非线性规划的目标函数为自变量 x x x的二次函数,且约束条件全是线性的,则称这种规划模型为二次规划。 1.2 二次规划的数学模型 min ⁡ 1 2 x T H x f T x \min \frac{1}{2}\boldsymbol{x}^{\boldsymbol{T}}\bolds…

想要自己做一个网站怎么做文件外链网站

【Maven】004-基于 IDEA 构建 Maven 工程 文章目录 【Maven】004-基于 IDEA 构建 Maven 工程一、概述1、项目构建2、命令方式项目构建命令war 包打包插件和 jdk 版本不匹配 二、项目构建1、命令方式2、IDEA 可视化方式3、构建产物 一、概述 1、项目构建 项目构建是将软件开发…

怎么做全网小说网站清远新闻最新

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 在这一节中,我们将探索对记号的意义的普遍的误解以及记号和组成它们的字…

上海市 建设执业资格注册中心网站嘉兴网站建设外包公司

本文为直接从百度上搜索的关于excel的函数使用,方便以后用,希望会持续补充 excel中筛选出两列重复的数据【场景:A、B两列数据个数不同且无序,想找出A列中的数据在B列中不存在的,通过比较后单元格为空的代表该行不存在的…

东圃做网站的公司安徽建设工程信息网中项网

bash和sh和./的区别 今天在执行一个脚本的时候,用的是sh script.sh,执行报错,使用bash script.sh执行时就能成功,才知道sh和bash是不一样的 sh sh表示 Bourne Shell,是 Unix 系统上的一种基本的命令解释器。它也可以…

做微官网什么网站好天津品牌网站建设好处

描述 现有一字符串 仅由 (, ), {, }, [, ]一共六种括号组成。若字符串满足以下条件之一&#xff0c;则为无效字符串。 任意类型的左右括号数量不相等存在未按正确顺序(先左后右)闭合的括号&#xff0c; 输出括号的最大嵌套深度&#xff0c;若字符串无效则输出 0。 0 < 字符…

新注册公司网站怎么做百度竞价投放

146.LRU缓存 题目链接&#xff1a;146.lru-cache 解法&#xff1a; 这个题代码量大&#xff0c;光看题解就1个小时多了&#xff0c;看完写下来花了两小时多... 使用哈希表双向链表来实现LRU缓存的特性&#xff0c;即哈希表可以实现get为O(1)复杂度&#xff0c;双向链表可以…

摄影师网站html5登录wordpress后台的管理

描述 对于一个链表&#xff0c;请设计一个时间复杂度为O(n),额外空间复杂度为O(1)的算法&#xff0c;判断其是否为回文结构。 给定一个链表的头指针A&#xff0c;请返回一个bool值&#xff0c;代表其是否为回文结构。保证链表长度小于等于900。 测试样例&#xff1a; 1->…

做社交网站用什么语言百度制作的wordpress工具栏

作为一个真正能用的企业级应用&#xff0c;怎么能缺少RESTful接口呢&#xff1f;所以我们需要尝试在Go语言环境中写出我们的对外接口&#xff0c;这样前端就可以借由Gin框架访问我们数据库中的数据了。 一、Gin框架的使用 1. 安装 Gin 首先&#xff0c;你需要在你的 Go 项目…

网站改版 打造企业文化横栏网站建设

摘要 arxiv.org/pdf/2402.13616.pdf 当今的深度学习方法侧重于如何设计最合适的目标函数,以便模型的预测结果能最接近于实际结果。同时,还必须设计一个适当的架构,以便于获取足够的预测信息。现有的方法忽略了一个事实,即当输入数据经历层层特征提取和空间变换时,会损失…

电商网站改版方案平面设计找图网站

近年来&#xff0c;元宇宙&#xff08;Metaverse&#xff09;这一概念备受瞩目&#xff0c;被认为是数字化社交的未来趋势之一。而在众多科技巨头中&#xff0c;Facebook&#xff08;现更名为Meta&#xff09;一直处于元宇宙发展的前沿。在本文中&#xff0c;我们将深入探讨Fac…

网站维护做啥的国内永久免费crm系统app

数学建模matlab画图操作大全 1.画图及一些基本设置 clear%清空工作区 clc%清空命令行窗口 close all%关闭所有图窗 x-40:0.1:40 f(x) x.^2-110;%函数句柄 x0fzero(f,15)%找15附近的零点 x0fminsearch(f,-11)%找-11附近的最小值%% 画图及其基本操作 %画图&#xff0c;默认格式…

个人网站制作成品图片北京婚恋网站哪家最好

实现一个字符串类String&#xff0c;为其提供可接受C风格字符串的构造函数、析构函数、拷贝构造函数和拷贝赋值函数。 声明依赖文件 其中ostream库用于打印标准输入输出&#xff0c;cstring库为C风格的字符串库 #include <iostream> #include <cstring> 声明命…

网站建设动图代码南山做棋牌网站建设

Watch应用于对状态变量的监听。如果开发者需要关注某个状态变量的值是否改变&#xff0c;可以使用Watch为状态变量设置回调函数。 说明&#xff1a; 从API version 9开始&#xff0c;该装饰器支持在ArkTS卡片中使用。 概述 Watch用于监听状态变量的变化&#xff0c;当状态变量变…

开网站赚50万做徐州市建设监理协会网站

7、在Windows2000中&#xff0c;切换到MS&#xff0d;DOS方式后&#xff0c;返回Windows2000的命令是。8、在“我的电脑”窗口中用鼠标双击“软盘A”图标&#xff0c;将会。习题参考答案三、填空题1&#xff0e;启动 2&#xff0e;软键盘 3&#xff0e;硬盘 4&#xff0e;弹出式…

苏州网站设计公司官网c 网站开发 vs2012

一、关于gcc、glibc和binutils模块之间的关系 1、gcc&#xff08;gnu collect compiler&#xff09;是一组编译工具的总称。它主要完成的工作任务是“预处理”和“编译”&#xff0c;以及提供了与编译器紧密相关的运行库的支持&#xff0c;如libgcc_s.so、libstdc.so等。 2、bi…

专业网站建设模块上海行业门户网站建设技术

之前有个想法&#xff0c;就是要利用vue写一套ui。然后当时也没有搞清楚到底怎么写。 几经周转吧&#xff0c;通过付费的方式在gitbook上面找到了答案。 找到答案之后再看我们正在开发的项目&#xff0c;看伙伴写的代码&#xff0c;突然发现完全可以按照写ui组件库的方式调整目…

慈溪想做网站的公司视频网站开发流程图

一、正则表达式 ​ 由一类特殊字符及文本字符所编写的模式&#xff0c;其中有些字符&#xff08;元字符&#xff09;不表示字符字面意义&#xff0c;而表示控制或通配的功能&#xff0c;类似于增强版的通配符功能&#xff0c;但与通配符不同&#xff0c;通配符功能是用…