四川手机网站建设网站关键词在哪里做

pingmian/2025/10/8 4:04:37/文章来源:
四川手机网站建设,网站关键词在哪里做,相亲网站开发与设计报告,郑州高端定制网站建设量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中#xff0c;GPTQ在gpu上提供了惊人的性能。与非量化模型相比#xff0c;该方法使用的VRAM几乎减少了3倍#xff0c;同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从…量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中GPTQ在gpu上提供了惊人的性能。与非量化模型相比该方法使用的VRAM几乎减少了3倍同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从GPTQ中挤出更多性能的库。由于新的内核它还经过了优化可以进行(非常)快速的推理。并且它还引入了一种新的量化格式EXL2它为如何存储权重带来了很大的灵活性。 在本文中我们将介绍如何量化EXL2格式的基本模型以及如何运行它们。当然如果你喜欢使用现有的已经量化好的模型TheBloke 仍然是第一选择。 量化EXL2模型 首先需要安装ExLlamaV2库 pip install exllamav2#为了使用官方的一些脚本我们还要把官方的代码clone到本地git clone https://github.com/turboderp/exllamav2我们使用出色的zephyr-7B-beta这是一种使用DPO进行微调的Mistral-7B模型。它声称在MT测试台上的表现优于Llama-2 70b的效果这对于一个小十倍的模型来说是非常好的结果。 使用以下命令下载zephyr-7B-beta(这可能需要一段时间因为模型大约是15gb): git lfs installgit clone https://huggingface.co/HuggingFaceH4/zephyr-7b-betaGPTQ还需要一个校准数据集该数据集用于通过比较基本模型及其量化版本的输出来衡量量化过程的影响。我们将使用wikitext数据集直接下载测试文件如下: wget https://huggingface.co/datasets/wikitext/resolve/9a9e482b5987f9d25b3a9b2883fc6cc9fd8071b3/wikitext-103-v1/wikitext-test.parquet准备工作完成后就可以利用ExLlamaV2库提供的convert.py脚本来进行量化了主要的参数是 -i:以HF格式(FP16)转换的基模型路径。 -o:存放临时文件和最终输出的工作目录路径。 -c:校准数据集的路径(Parquet格式)。 -b:目标平均加权位数(bpw)。例如4.0 bpw将给出4位精度的存储权重。 让我们使用带有以下参数的convert.py脚本开始量化过程: mkdir deephub-quantpython python exllamav2/convert.py \-i base_model \-o deephub-quant \-c wikitext-test.parquet \-b 5.0这里就需要一个GPU来量化这个模型。根据官方文档指出7B型号需要大约8 GB的VRAM, 70B型号需要大约24 GB的VRAM。zephyr-7b-beta在白嫖的谷歌Colab的T4 GPU经过了2小时10分钟完成了量化。 ExLlamaV2利用GPTQ算法来降低权重的精度同时最大限度地减少对输出的影响。GPTQ算法的更多详细信息可以参考我们以前的文章。 量化过程使用现有脚本非常的简单。那么还有最后一个问题为什么要使用“EXL2”格式而不是常规的GPTQ格式呢?EXL2带来了哪些新功能 它支持不同级别的量化:它不局限于4位精度可以处理2、3、4、5、6和8位量化。 它可以在一个模型和每一层中混合不同的精度以保留最重要的权重和具有更多bit的层。 ExLlamaV2在量化过程中使用了这种额外的灵活性。它会自动尝试不同的量化参数并测量了它们引入的误差。除了尽量减少错误之外ExLlamaV2还会将必须达到平均位数作为参数这个我们在以前文章中也有介绍。所以我们可以创建一个混合的量化模型例如每个权重的平均位数为3.5或4.5。 ExLlamaV2另外一个好处是它创建的不同参数的基准被保存在measurement.json文件中。我们可以直接看到具体的信息 key: model.layers.0.self_attn.q_proj,numel: 16777216,options: [{desc: 0.05:3b/0.95:2b 32g s4,bpw: 2.1878662109375,total_bits: 36706304.0,err: 0.011161142960190773,qparams: {group_size: 32,bits: [3,2],bits_prop: [0.05,0.95],scale_bits: 4}},比如上面的内容ExLlamaV2使用了5%的3位精度和95%的2位精度平均值为2.188 bpw组大小为32。这导致了一个明显的误差所以在选择最佳参数时要考虑到这个误差通过查看json文件的结果我们可以判断出这次量化是否符合我们的要求并且进行调整。 使用ExLlamaV2进行推理 模型已经量子化了下面就是使用模型进行推理了。首先需要将基本配置文件从base_model目录复制到新的deephub-quant目录代码如下 !rm -rf deephub-quant/out_tensor!rsync -av --exclude*.safetensors --exclude.* ./base_model/ ./deephub-quant/最直接的方法是使用ExLlamaV2 repo中的test_inference.py脚本(注意我在这里没有使用聊天模板): python exllamav2/test_inference.py -m quant/ -p I have a dream与GGUF/llama.cpp或GPTQ等其他量化技术和工具相比生成速度也非常快(在T4 GPU上每秒56.44个令牌)。 也可以使用chatcode.py脚本的聊天版本来获得更大的灵活性: python exllamav2/examples/chatcode.py -m deephub-quant -mode llama总结 ExLlamaV2已经被集成到几个常见的后端中比如oobabooga的文本生成web UI。但是它需要FlashAttention 2和CUDA 12.1这在windows中可能需要费一些时间。 ExLlamaV2与GPTQ或llama.cpp等其他解决方案相比可以自定义量化我们的模型。在量化之后它每秒提供的令牌数量更多更快。这对于定制化的需求来说是非常有帮助的。 最后本文代码 https://avoid.overfit.cn/post/ce9c31f9650943bfa220f48f3ee2f430 作者Maxime Labonne

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/89735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vs做网站网页美工图片

更多原创文章可关注微信公众号:地下城勤帝 查看大家好,我是勤帝,我只写大家能看懂的文章搬砖市场的角色更新了一些,装备都有所不同,今天我给大家一个可以通用的装备,这套装备虽然成型不快,但是…

怎么建设课程的网站两个网站php 一个空间

自我介绍 1.自我介绍2.快手实习难点:上锁函数 防抖函数结合亮点:技术选型 Uber实习auth0 原理 1.自我介绍 (乖巧,听话的声音) 好的,面试官你好。我是一名前端开发工程师,叫李小菲,…

做网络销售保温材料用什么网站好seo免费诊断联系方式

大数量分页,使用存储过程。 这个存储过程是网络上考的,呵呵。我把它给贴出来,希望原作者别砸我砖头。。。。。 ALTER PROCEDURE SP_Pagination/**//****************************************************************** 千万数量级分页存…

网站开发流程传智播客怎么模板建站

开源项目地址:https://gitee.com/gblfy/tx-position-check-in 关于微信小程序集成腾讯地图详情,可以参考:https://blog.csdn.net/weixin_40816738/article/details/122519497

建设网站需要花费多少钱企业网络营销的意义

1 package timetask.demo;2 3 import java.text.SimpleDateFormat;4 import java.util.Date;5 import java.util.Timer;6 import java.util.TimerTask;7 8 /*9 * time类 是一个线程实施,可以用来实现在某一个时间或者某一个时间段后安排某一个任务执行一次或者定期…

沧州响应式网站开发网站维护 代码

目录 ZipFile 对象 Path 对象 PyZipFile 对象 ZipInfo 对象 命令行接口 命令行选项 解压缩的障碍 由于文件本身 文件系统限制 资源限制 中断 提取的默认行为 源代码: Lib/zipfile/ ZIP 文件格式是一个常用的归档与压缩标准。 这个模块提供了创建、读取、写入、添加…

网站建设及运维方案wordpress显示中文乱码

前言 本文适合有一定基础的进行快速简单回顾复习。 对于现如今的无论哪一类软件或应用,都几乎无法离开数据库,常见使用的关系性数据库如MySQL、Oracle,非关系性数据库如MongoDB、Redis等。而MySQL数据库则是软件开发中最常用的数据库之一&…

网站做贸易用什么色调比较好百度安装应用

Julia 基本语法 Julia 是一种为高性能数值计算设计的动态编程语言。它结合了其他编程语言的优点,如 Python 的易用性和 C 的性能。Julia 的语法简洁明了,使得编写和理解代码都变得容易。本文将介绍 Julia 的基本语法,帮助读者快速入门。 变量和数据类型 在 Julia 中,变量…

网站的安全怎么做网络营销方式思维导图

熟悉C语言的人都知道,虽然C语言是一门高级语言,拥有很多高级语言的特性,但是作为一种由低级语言到高级的过渡,他又继承了很多低级语言的特性,那就是可以直接操作计算机的硬件设备。本人近日在学习有关PLC网络方面的知识…

贺州做网站哪家公司网站服务器申请

生成式人工智能研究焦点:揭秘基于扩散的模型 文章目录 生成式人工智能研究焦点:揭秘基于扩散的模型去噪扩散是什么让扩散发挥作用?采样生成图像的设计选择以更少的步骤理顺流程在低噪音水平下步骤高阶求解器可实现更准确的步骤训练降噪器的设…

安亭公司网站建设国内消息最新新闻

js开发的web应用和php/Java最大的区别就是js可以通过查看源代码的方式查看到编写的代码,但是php/Java的不能看到,也就是说js开发的web网页相当于可以进行白盒测试。 流行的js框架有: 1. AngularJS 2. React JS 3. Vue 4. jQuery 5. Backbone…

机床网站建设俄罗斯最新消息

一、模块题目 二、原理图 1、数码管

沧县做网站资源wordpress

[Submit][Status][Discuss]Description 请写一个程序,要求维护一个数列,支持以下 6 种操作:请注意,格式栏 中的下划线‘ _ ’表示实际输入文件中的空格Input 输入的第1 行包含两个数N 和M(M ≤20 000),N 表示初始时数列…

盱眙建设局网站乐山网站建设流程

【Unity的URP渲染管线下的TAA抗锯齿】 背景:1. Unity内置的抗锯齿只能够满足部分画面需求。展示一个锯齿示例。2. 在75寸大屏电视上跑通展示一个锯齿示例。- 在Camera上配置3. 安装了一个TAA组建,最后打包APK在安卓机上运行报错。- 经过测试排查,发现是没有将后处理的shader…

外贸网站建设哪家公司好青岛市住房城乡建设局网站

本文旨在以最小的篇幅,最少的信息,介绍最高频使用的内容,从而掌握C编程开发的能力。 这种能力,只是语法层面,不涉及具体的函数库,基础库等内容。 能力准备:需要C语言基础。基本的if else, whi…

个人网站空间价格怎样提高网站权重

简介学习地址: https://meyerweb.com/eric/tools/css/reset/重置样式表的目的是减少浏览器在默认行高,标题的边距和字体大小等方面的不一致。重置样式特意是非常通用的/* http://meyerweb.com/eric/tools/css/reset/ v2.0 | 20110126License: none (publ…

广州网站(建设信科网络)可视化编辑建站平台

1.定义结构体数组存储5个学生的信息:姓名,年龄,性别 定义函数实现输入,要求形参使用结构体指针接收 函数实现5个学生年龄排序(注意对年龄排序时,交换的是所有信息) 定义函数实现输出,要求形参使用结构体…

网站建设 三乐建站之星官网 discuz

微软开源的 云原生应用开发的框架 Dapr 发布了1.0 版本《Dapr 正式发布 1.0》,云原生应用开发更加简单容易,Dapr 的容器编排环境也是用的Kubernetes。过去几年,以 Docker、Kubernetes 为代表的容器技术已发展为一项通用技术,BAT、…

沧州北京网站建设wordpress服務器

网络的基本概念 1.协议1.1 协议的基本概念1.2 常见的协议 2.分层模型2.1网络七层OSI 7层模型:物数网传会表应(口诀)2.2TCP/IP模型2.3数据通信的过程2.4网络的设计模式2.5以太网帧的格式 3.SOCKET编程3.1网络字节序3.2 相关结构体和函数3.3 代码实现 1.协议 1.1 协议…

wordpress商店插件优化神马网站关键词排名价格

目录 1 计算机网络的拓扑结构1.1 网络拓扑的概念1.2 通信子网的信道类型1、点到点式网络2、广播式网络 1.3 常见的计算机网络拓扑结构 2 网络协议和标准化组织2.1 网络协议2.2 标准化组织 1 计算机网络的拓扑结构 1.1 网络拓扑的概念 拓扑学由图论演变而来,在拓扑…