天水网站建设惠普招标网站哪个好用

diannao/2025/10/21 10:08:53/文章来源:
天水网站建设惠普,招标网站哪个好用,优秀品牌vi设计公司,百度推广网页版“超级AI助手#xff1a;全新提升#xff01;中文NLP训练框架#xff0c;快速上手#xff0c;海量训练数据#xff0c;ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用#xff01;” 1.简介 目标#xff1a;基于pytorch、transformers做中文领域的nlp开箱即用…“超级AI助手全新提升中文NLP训练框架快速上手海量训练数据ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用” 1.简介 目标基于pytorch、transformers做中文领域的nlp开箱即用的训练框架提供全套的训练、微调模型包括大模型、文本转向量、文本生成、多模态等模型的解决方案数据 从开源社区整理了海量的训练数据帮助用户可以快速上手同时也开放训练数据模版可以快速处理垂直领域数据结合多线程、内存映射等更高效的数据处理方式即使需要处理百GB规模的数据也是轻而易举 流程每一个项目有完整的模型训练步骤如数据清洗、数据处理、模型构建、模型训练、模型部署、模型图解模型当前已经支持gpt2、clip、gpt-neox、dolly、llama、chatglm-6b、VisionEncoderDecoderModel等多模态大模型多卡串联 当前多数的大模型的尺寸已经远远大于单个消费级显卡的显存需要将多个显卡串联才能训练大模型、才能部署大模型。因此对部分模型结构进行修改实现了训练时、推理时 的多卡串联功能。 模型训练 中文名称文件夹名称数据数据清洗大模型模型部署图解中文文本分类chinese_classifier✅✅✅❌✅中文gpt2chinese_gpt2✅✅✅✅❌中文clipchinese_clip✅✅✅❌✅图像生成中文文本VisionEncoderDecoderModel✅✅✅❌✅vit核心源码介绍vit model❌❌❌❌✅Thu-ChatGlm-6b(v1)simple_thu_chatglm6b✅✅✅✅❌chatglm-v2-6bchatglm_v2_6b_lora✅✅✅❌❌中文dolly_v2_3bdolly_v2_3b✅✅✅❌❌中文llamachinese_llama✅✅✅❌❌中文bloomchinese_bloom✅✅✅❌❌中文falcon(注意falcon模型和bloom结构类似)chinese_bloom✅✅✅❌❌中文预训练代码model_clm✅✅✅❌❌百川大模型model_baichuan✅✅✅✅❌模型修剪✂️model_modify✅✅✅llama2 流水线并行pipeline✅✅✅❌❌ 2.thu-chatglm-6b模型教程 本文件夹只能进行单机单卡训练如果想要使用单机多卡请查看文件夹Chatglm6b_ModelParallel_ptuning。 介绍路径状态使用lora训练chatglm6b就是本文件夹✅使用ptuning-v2模型并行训练chatglm6bhttps://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/Chatglm6b_ModelParallel_ptuning✅ 在文件code02_训练模型全部流程.ipynb的cell-5代码的前面创建一个新的cell然后把下面的代码放到这个cell里面 q1 您叫什么名字? 您是谁? 您叫什么名字?这个问题的答案可能会提示出您的名字。 您叫这个名字吗? 您有几个名字? 您最喜欢的名字是什么? 您的名字听起来很好听。 您的名字和某个历史人物有关吗? 您的名字和某个神话传说有关吗? 您的名字和某个地方有关吗? 您的名字和某个运动队有关吗? 您的名字和某个电影或电视剧有关吗? 您的名字和某个作家有关吗? 您的名字和某个动漫角色有关吗? 您的名字和某个节日有关吗? 您的名字和某个动物有关吗? 您的名字和某个历史时期有关吗? 您的名字和某个地理区域有关吗? 您的名字和某个物品有关吗?比如,如果您的名字和铅笔有关,就可以问“您叫什么名字?您是不是用铅笔的人?” 您的名字和某个梦想或目标有关吗? 您的名字和某个文化或传统有关吗? 您的名字和某个电影或电视节目的情节有关吗? 您的名字和某个流行歌手或演员有关吗? 您的名字和某个体育运动员有关吗? 您的名字和某个国际组织有关吗? 您的名字和某个地方的气候或环境有关吗?比如,如果您的名字和春天有关,就可以问“您叫什么名字?春天是不是一种温暖的季节?” 您的名字和某个电影或电视节目的主题有关吗? 您的名字和某个电视节目或电影的角色有关吗? 您的名字和某个歌曲或音乐有关吗? 您叫什么名字? 谁创造了你q1 q1.split(\n) a1 [我是良睦路程序员开发的一个人工智能助手, 我是良睦路程序员再2023年开发的AI人工智能助手] import randomtarget_len__ 6000d1 pd.DataFrame({instruction:[random.choice(q1) for i in range(target_len__)]}).pipe(lambda x: x.assign(**{input:,output:[random.choice(a1) for i in range(target_len__)]}) ) d1 alldata d1.copy()注意 如果想要覆盖模型老知识你数据需要重复很多次才行文件不要搞错了使用我最新的代码文件 只是对transofrmers包的Trainer类做了修改对modeling_chatglm.py代码也做了修改。 这么做可以让你在拥有22G显存的情况下可以训练thu-chatglm-6b模型。 那么基于Trainer的丰富方法你可以做很多事情。而且使用peft包https://github.com/huggingface/peft的lora算法让你在一个消费级别的显卡上就可以训练thu-chatglm-6b模型。 安装 上面是文件工程这里开始说安装包直接使用pip安装 pip install protobuf3.20.0 transformers icetk cpm_kernels peft就这么简单不需要安装别的东西了 训练部分 在最新的版本中只需要查看code02_训练模型全部流程.ipynb文件就行了 推理部分 推理部分直接看infer.ipynb代码能到这里也是恭喜你微调模型已经成功了。这个时候在这个文件夹下肯定有一个文件夹叫test003就是上面output_dirtest003对应的文件夹在这个文件夹下你肯定可以看到很多checkpoint-xxx选择一个你喜欢的当然肯定是最好选择最新的。 3.chatglm_v2_6b_lora 添加了上面的参数确实可以进行模型并行但是这是在chatglm模型代码没有bug的情况下目前已经定位到bug并且修复了bug我也提交PR给chatglm团队可以点击这个链接查看https://huggingface.co/THUDM/chatglm2-6b/discussions/54#64b542b05c1ffb087056001c 考虑到他们团队效率问题如果他们还没有修改这个bug那你们可以自己修改主要是这么做 在modeling_chatglm.py的第955行代码附近也就是modeling_chatglm.py/ChatGLMForConditionalGeneration.forward的loss部分 原始代码: loss Noneif labels is not None:lm_logits lm_logits.to(torch.float32)# Shift so that tokens n predict nshift_logits lm_logits[..., :-1, :].contiguous() shift_labels labels[..., 1:].contiguous() #------------------看这里# Flatten the tokensloss_fct CrossEntropyLoss(ignore_index-100)loss loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))lm_logits lm_logits.to(hidden_states.dtype)loss loss.to(hidden_states.dtype)if not return_dict:output (lm_logits,) transformer_outputs[1:]return ((loss,) output) if loss is not None else outputreturn CausalLMOutputWithPast(lossloss,logitslm_logits,past_key_valuestransformer_outputs.past_key_values,hidden_statestransformer_outputs.hidden_states,attentionstransformer_outputs.attentions,)修改为: loss Noneif labels is not None:lm_logits lm_logits.to(torch.float32)# Shift so that tokens n predict nshift_logits lm_logits[..., :-1, :].contiguous()shift_labels labels[..., 1:].contiguous().to(shift_logits.device) #--------------------看这里# Flatten the tokensloss_fct CrossEntropyLoss(ignore_index-100)loss loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))lm_logits lm_logits.to(hidden_states.dtype)loss loss.to(hidden_states.dtype)if not return_dict:output (lm_logits,) transformer_outputs[1:]return ((loss,) output) if loss is not None else outputreturn CausalLMOutputWithPast(lossloss,logitslm_logits,past_key_valuestransformer_outputs.past_key_values,hidden_statestransformer_outputs.hidden_states,attentionstransformer_outputs.attentions,)是的就修改那一行即可 然后就可以正常跑起来了 下载数据集 ADGEN 数据集任务为根据输入content生成一段广告词summary。 {content: 类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳,summary: 这件衬衫的款式非常的宽松利落的线条可以很好的隐藏身材上的小缺点穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳漂亮的绳结展现出了十足的个性配合时尚的泡泡袖型尽显女性甜美可爱的气息。 }从 Google Drive 或者 Tsinghua Cloud 下载处理好的 ADGEN 数据集将解压后的 AdvertiseGen 目录放到本目录下。 硬件要求 有个3090显卡即可24G显存左右在下面这个参数下显存只需要14G --max_source_length 64 \--max_target_length 128 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \ --lora_r 32 训练脚本 使用vscode调试就在.vscode/launch.json里面直接使用shsh train.sh 推理 使用文件infer_lora.ipynb 使用lora推理 from transformers import AutoTokenizer, AutoModel from peft import PeftModel, PeftConfig import torch import osos.environ[CUDA_VISIBLE_DEVICES] 1#原始的模型路径 model_name_or_path /media/yuanz/新加卷/训练代码/chatglm6b_v2_0716/chatglm2-6b_model#训练后的lora保存的路径 peft_model_id output/adgen-chatglm2-6b-lora_version/checkpoint-880tokenizer AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_codeTrue) model AutoModel.from_pretrained(model_name_or_path, trust_remote_codeTrue, device_mapauto,torch_dtypetorch.bfloat16) # .half().cuda()model PeftModel.from_pretrained(model, peft_model_id) model model.eval()response, history model.chat(tokenizer, 类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,history[]) print(response)血的教训 一定要从huggingface上把chatglm-v2-6b的所有文件都下载下来放在一个文件夹下这样即使他更新了也不会影响到你。如果你不下载你会很被动 相关的BUG 很多人在跑多卡的时候会遇到一些莫名其妙的错误建议您按照下面两个步骤进行排查 一定要看我上面折叠的那一块东西就是注意部分。检查transformers的版本如果太低就更新一下建议更新pip install transformers -U 4.中文的dolly_v2_3b模型 训练中文的dolly_v2_3b模型 dolly_v2_3b模型本质上就是使用的gpt_neox模型框架可以商用,而且也都出来很多年了。当前有很多人基于llama、gptj、chatglm-6b等模型做了很多微调有些也都做过了有些不能商用有些还要申请实在是太可惜了太麻烦了。既然dolly_v2_3b可以商用那我们就主打一个随意稍微动动手就可以训练一个属于我们的模型。本仓库用到的代码来源于databrickslabs/dolly对代码做了部分调整和融合。反正就是复制粘贴、懂得都懂模型叫什么名字小黑子 已将模型放在https://huggingface.co/yuanzhoulvpi/xiaoheizi-3b 支持多卡模型并行也不知道databrickslabs/dolly为啥要使用gpt_neox模型这个模型transformers对他支持的其实一般于是我把代码魔改了一部分增加了多卡并行计算功能(主要是是模型并行). 虽然代码是从databrickslabs/dolly复制的但是简化了很多不必要的代码更简单一点我不喜欢复杂的代码越简单越好。 支持bp16我原本的打算是说支持fp16的但是发现fp16怎么搞都不行但是bp16倒是可以。 下一步优化方向 添加lora等微调训练代码这个简单等后面都训练好了我添加一下。 模型训练情况 训练数据BelleGroup/train_1M_CN训练时间280小时左右训练设备4台3090 更多 当前的模型参数是3b但是当你把整个流程跑通之后可以很轻松的将3b模型换成7b模型或者更大的gpt_neox模型。而你只需要将硬件进行提升即可无需调整代码当前的3b模型是否满足你的需求还不确定后面你可以试一试。当前还没发布到底是大模型好还是小模型好可以看看这句话:吴恩达有多少应用程序需要用到像GPT-4这样的最大型模型而不是云提供商提供的更小更便宜的模型甚至是本地托管的模型比如运行在桌面上的gpt4all还有待观察对于个人或者小企业强调的的就是在垂直领域做快速迭代希望3b模型可以帮助到你 5.chinese_bloom 支持对falcon模型做sft ✅ 基于stanford_alpaca项目使用sft格式数据对bloom、falcon模型微调 ✅ 支持deepspeed-zero2、deepspeed-zero3 ✅ 支持自定义数据支持大数据训练 ✅ 得益于bloom本身的能力微调后的模型支持中文、英文、代码、法语、西班牙语等 ✅ 微调后的模型中文能力显著提升 ✅ 支持不同尺寸bloom模型如560m、3b、7b、13b ✅ 支持falcon模型如https://huggingface.co/tiiuae/falcon-7b; 体验 bloom-560m_chat: 想要体验一个轻量的那就直接体验5.6亿参数https://huggingface.co/yuanzhoulvpi/chinese_bloom_560mbloom-7b_chat: 想要体验一个更大的那就可以试一试70亿参数https://huggingface.co/yuanzhoulvpi/chinese_bloom_7b_chat 在hugginface上部署了一个cpu版本的有点慢毕竟是https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chat 模型 bloom模型支持中文、英文、代码、法语、西班牙语。具体的训练数据的语言占比如下。 bloom-3b: https://huggingface.co/bigscience/bloom-3b bloom-系列模型: https://huggingface.co/bigscience 数据 数据来源于BelleGroup主要是用到这几个数据集:[BelleGroup/generated_chat_0.4M, BelleGroup/school_math_0.25M, BelleGroup/train_2M_CN, BelleGroup/train_1M_CN, BelleGroup/train_0.5M_CN, BelleGroup/multiturn_chat_0.8M]可以基于这些数据样式制作自己的数据并训练 步骤 数据部分 运行data_proj/process_data.ipynb代码或者模仿结果制作自己的数据集运行结束之后有一个文件夹data_proj/opendata。文件夹下有若干个json格式的文件。 运行模型 基础运行策略 sh base_run.shdeepspeed运行策略 sh ds_all.sh推理代码 infer.ipynb文件gradio交互界面https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chat 因为是使用的huggingface的免费的cpu版本所以推理速度比较慢。 效果 不管是写代码还是写文案bloom-7b在中文领域有极大的潜力 体验 chinese_bloom_560m模型可以在这里体验https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chatchinese_bloom_7b模型可以在这里体验http://101.68.79.42:7861 项目链接https://github.com/yuanzhoulvpi2017/zero_nlp 更多优质内容请关注公号汀丶人工智能会提供一些相关的资源和优质文章免费获取阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/92058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哪个网站的旅游板块做的好汕头市研发网站建设

“找不到服务器IP地址”错误是Chrome浏览器用户的常见问题,导致404消息和无法访问网页 一、错误解释:找不到服务器 IP 地址 当您在浏览器的地址栏中输入域名时,如果输入的域名与相应的 Internet 协议地址(IP 地址)不…

网站的设计制作与维护无锡 学校网站建设

我使用Maven网站已有一段时间了,对此我感到非常满意。 我不想在Maven 3之后更新我的项目,但是没关系,Maven 3带来了许多新奇的东西。 但是,有两件事使我感到烦恼:缺乏美观和现代的外观,以及浏览复杂代码的J…

专业网站定制公司大学生动漫主题网页制作

前两天,看到一篇“湖北恩施的一名学生早读课上大汗淋漓”的文章,不禁想起了我们班的早读。01早读情况除周一升旗以外,其余的学习日都是有早读的,但是早读的利用率有多少就不得而知了。一般在前一天布置作业的时候,作业…

做电台用啥什么网站怎么做网站发货

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 最近在项目中需要用到3DUI的展示,之前一般会用TextMeshPro进行展示: 但是,后面又需要添加按钮、Toggle等…

建站公司郑州外贸网站推广外包

本篇文章我们介绍4种网站分析中最常用,也是最有效的分析方法。他们分别是细分分析,对比分析,对比分析,质与量分析。这些分析方法在实际工作中经常组合使用。我们先来看下细分分析。 1, 细分分析 单一的指标数据或大维度…

效果图网站排行开源网站 做镜像 如何做

keras中可以使用 from keras.utils import plot_model plot_model(model,to_filemodel_auth.png,show_shapesTrue) #show_shapesTrue可以把输入输出的shape一起打印 注意,最好是给每个层命名,命名好之后打印出来的才会带名字。程序运行的时候也有一定的指…

正规网站建设公司一般要多少钱西宁网站建设平台公司

我已经是IntelliJ IDEA的长期用户(和客户)。 我想我是在2005年或2006年(版本5.0)左右开始使用它的。 那时我是Eclipse用户。 我的一些同事向我推荐了它,起初我没有被说服,但是在尝试之后我印象深刻。 现在…

备案个人网站做广告公司网站建设

目录 一:时间相关 1:Unix时间戳 2: UTC/GMT 3:时间戳转化 二:BKP 1:简历 2:基本结构 三: RTC 1:简历 2: 框图 3:RTC基本结构 4:RTC操作注意 四:案例 A:读写备份寄存器 1:连接图 2: 步骤 3: 代码 B:实时时钟 1:连接图 2:函数介绍 3:代码 一:时间相关 1:Un…

网站备案时间怎么查询系统学生个人网页优秀模板

起因&#xff1a;最近公司要发票自动匹配&#xff0c; 比如财务输入10000W块&#xff0c;找到发票中能凑10000的。然后可以快速核销。 废话不多&#xff0c; 一 官方文档 https://developers.google.cn/optimization/pack/knapsack?hlzh-cn 二 POM文件 <!--google 算法包…

汕头网站设计怎么做企业营销型网站推广

思科加强生成树性能的属性&#xff08;Portfast/Uplinkfast/BackboneFast&#xff09;与RSTP的关系本文截自于博主CCNP交换技术稿件内容4.2.6思科加强生成树性能的属性&#xff08;Portfast/Uplinkfast/BackboneFast&#xff09;与RSTP的关系首先说明一下&#xff0c;为什么笔者…

如何查网站的空间wordpress改logo不显示

在数字化阅读日益盛行的今天&#xff0c;各种电子文献格式层出不穷&#xff0c;其中CAJ和PDF无疑是两种最为常见的格式。CAJ是中国知网推出的一种专用全文阅读格式&#xff0c;而PDF则因其跨平台、不易被修改的特性&#xff0c;受到了广大读者的青睐。因此&#xff0c;将CAJ格式…

便宜建站空间开发公司产品部课件

<?phpheader("Content-Type:text/html;charsetutf-8");/*无限级分类。牵扯2个应用0是-找指定栏目的子栏目1是-找指定栏目的子孙栏目&#xff0c;即子孙树2是-找指定栏目的父栏目/父父栏目....顶级栏目&#xff0c;即家谱树*/$aarr array(array(id>1,name>…

网站建设类毕业设计江西网站建设公司哪家好

时钟周期是一个时间的量&#xff0c;人们规定10纳秒&#xff08;ns&#xff09;为一个时钟周期。时钟周期表示了SDRAM所能运行的最高频率。更小的时钟周期就意味着更高的工作频率。对于PC100规格的内存来说&#xff0c;它的运行时钟周期应该不高于10纳秒。纳秒与工作频率之间的…

网站怎么做有创意帝国网站数据库配置文件

题目描述 给定一个正整数 n&#xff0c;对 n 分解质因数。 设 np1​p2​p3​⋯px​&#xff0c;其中 pi​ 均为质数。 如果 pi​ 均为奇数&#xff0c;则称 n 为『只因数』。 现在&#xff0c;给出若干个 n&#xff0c;请你判断 n 是不是『只因数』。 输入格式 本题单测试…

昆明移动端网站建设安卓下载软件

2月9日在洛杉矶举行的第11届网络搜索与数据挖掘国际会议&#xff08;WSDM 2018&#xff09;上&#xff0c;公布了今年的WSDM Cup竞赛成绩&#xff0c;来自阿里巴巴的AliOS团队凭借优秀的算法能力&#xff0c;摘得榜眼。这是该赛事举办11届以来&#xff0c;中国企业在该赛事上首…

网站购物车功能怎么做网站设计的性能需求

今天小编给广大用户分享搜狐视频怎么下载到电脑。搜狐视频有海量的视频让我们可以不断的去浏览&#xff0c;而且这些资源是 跟搜狐视频网站同步。搜狐视频有占用内存小、耗电小、交互简单、播放流畅的优势&#xff0c;无论你是千元机还是几千元的高中低档手机中均能完美运行&am…

网站ftp空间做旅游网站目的和意义

HashMap头插死循环是指在JDK1.7中&#xff0c;多线程环境下&#xff0c;HashMap进行扩容时由于多个线程一起执行扩容&#xff0c;可能会导致某一结点被错误插入头部并形成一个循环链表。 发生死循环的源码如下&#xff1a; // hashmap由数组链表构成 void transfer(Entry[] ne…

网站商城怎么做的中国发达国家还有多远

文章目录 0 前言2 二维码基础概念2.1 二维码介绍2.2 QRCode2.3 QRCode 特点 3 机器视觉二维码识别技术3.1 二维码的识别流程3.2 二维码定位3.3 常用的扫描方法 4 深度学习二维码识别4.1 部分关键代码 5 测试结果6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天…

四川外国语大学网站建设系wordpress 3.5 官方中文版

前言C# 对类型系统进行改进一直都没有停过&#xff0c;这是一个长期的过程。C# 8 之后则主要围绕扩展性方面进行各种改进&#xff0c;目前即将发布的 C# 11 中自然也包含该方面的进度。这些改进当然还没有做完&#xff0c;本文则介绍一下已经推出和即将推出的关于这方面改进的新…

重点学科网站建设dw怎么做秋季运动会网站

题意&#xff1a; 一颗n个点的树&#xff0c;问其中两点之间的边上数的和加起来是3的倍数的点对有多少个&#xff1f; 输出这样的点对所占比例 题解&#xff1a; 树形dp求解 因为是求长度为3的倍数&#xff0c;模3的结果只有0/1/2&#xff0c;我们可以单独考虑作为一维。 设…