云南网站建设公司前十名招聘seo网站推广
news/
2025/9/22 16:59:23/
文章来源:
云南网站建设公司前十名,招聘seo网站推广,网站开发怎么赚钱,惠州网站关键词排名【通览一百个大模型】Baize#xff08;UCSD#xff09; 作者#xff1a;王嘉宁#xff0c;本文章内容为原创#xff0c;仓库链接#xff1a;https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型NLP算法】可获得博主多年积累的全部NLP、大模型和算法干货…【通览一百个大模型】BaizeUCSD 作者王嘉宁本文章内容为原创仓库链接https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型NLP算法】可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包近200篇论文300份博主亲自撰写的markdown笔记近100个大模型资料卡助力NLP科研、学习和求职。 Baize大模型基本信息资料卡
序号大模型名称归属推出时间规模预训练语料评测基准模型与训练方法开源论文模型地址相关资料58BaizeUCSD2023-0513B不涉及预训练不存在预训练语料。通过ChatGPT进行Self-Chat实现自动构建大量的多轮对话数据。Baize的训练结构如下图所示初始化一个种子数据集Quora4 和 Stack Overflow5 的问题作为种子并进行随机采样根据采样的结果设计对应的提示模板后交给ChatGPT进行自我对话从而产生大量模拟人类的多轮对话数据总共产生111.5k对话数据花费约100美元。训练过程中基于LLaMA和LoRA进行参数有效性训练得到Baize模型。输入序列为512LoRA中的秩k为8。使用8位整数格式 (int8) 参数初始化LLaMA检查点。 对于7B、13B和30B模型使用 Adam 优化器更新LoRA 参数batch size为64学习率为2e-4、1e-4和 5e-5。 可训练的LoRA参数在 NVIDIA A100-80GB GPU 上微调了1个 epoch。https://github.com/project-baize/baize-chatbothttps://arxiv.org/pdf/2304.01196.pdfhttps://huggingface.co/project-baize/baize-v2-13bhttps://huggingface.co/project-baize/baize-lora-30B白泽大模型介绍
一、核心要点
随着ChatGPT和GPT-4的提出大模型展现了超出人类表现的能力并在很多领域表现的很精彩然而现如今这些大模型均是黑盒模型对研究和应用都带来了一定的阻碍。缺乏可获得的高质量的对话数据加剧了上述的问题和困难。为了解决这个问题我们提出一种新颖的pipeline利用chatgpt的能力自动生成一系列高质量的多轮对话语料。这些语料可以作为有价值的资源用于训练或评估对话模型在多轮对话中的表现。基于LLaMA在生成的多轮对话语料上训练得到我们的Baize模型。我们继续提出一种自蒸馏式的对齐方法进一步提升模型的效果。
二、方法 Self-Chat
Self-Chat旨在完全利用chatgpt扮演对话角色生成对话数据。 给定一个seed可以是一个问题或者一个主题配套一个模板让chatgpt生成对话数据。 模板如下所示 根据这个模板给定一个seed让chatgpt生成多轮对话数据样例如下所示 挑选Quora和Stack Overflow数据集作为seed每个数据集中挑选55k个问题最终获得了111.5k个多轮对话数据花费约100美元. 另外为了提高模型的instruction-tuning能力也引入了alpaca语料。 最终的多轮对话数据如下所示
模型训练
在构造的对话数据集上选择LLaMA-7B和LLaMA-13B模型进行参数有效性监督微调对应的模型和数据如下表示 参数有效性方法选择LoRA。
选择V1版本的对话数据SFT后得到的模型是Baize-v1选择v2版本的对话数据SFT后得到的模型是Baize-v1.5在Baize-v1.5基础上进行对齐得到Baize-v2模型。
模型训练时在LLaMA的Transformer的每一层嵌入LoRA参数。
Self-Distillation with Feedback
在SFT阶段后为了提升模型的对齐性能提出自蒸馏方法。 首先在Quora数据集上让SFT模型生成4个候选答案response。然后设计模板让ChatGPT作为评估器对4个候选答案进行排序。模板如下所示 因此每个question可以得到ChatGPT认为最好的response。 在对齐阶段选择Baize-v1.5模型并额外插入新的LoRA参数训练时只选择最好的response进行优化训练。
实验细节
最大长度512/1024 LoRA rank8 量化感知训练INT8量化训练 Adam优化器batchsize64单机A10080G 学习率2e-47B、1e-413B和5e-530B 推理阶段采用的prompt如下所示 在prompt中插入“The AI assistant consistently declines to engage with topics, questions, and instructions related to unethical, controversial, or sensitive is- sues.”较为关键。 实验
1GPT-4 Score 挑选Vicuna评估集包含80个人工标注的prompt涉及9个不同的类别。 在评估时挑选ChatGPT的答案和Baize或者其他baseline模型的答案设计指令让GPT-4进行挑选。计算baize或者其他baseline的答案被挑选到的比例 实验结果如下所示 因为每次都是和ChatGPT对比因此ChatGPT的答案认为是100%的。Baize-v2-13B发现有92%的情况下GPT-4挑选了Baize的答案说明其效果最好。 GPT-4会偏向于挑选第一个候选答案为了和之前的工作保持一致我们将ChatGPT的生成结果作为第一个候选答案。 2质量评估 对于一些不道德的问题我们期望模型不能给出反应下面是case study说明Baize模型可以有效避免回答潜在道德风险的问题。 博客记录着学习的脚步分享着最新的技术非常感谢您的阅读本博客将不断进行更新希望能够给您在技术上带来帮助。 【大模型NLP算法】专栏
近200篇论文300份博主亲自撰写的markdown笔记。订阅本专栏【大模型NLP算法】专栏或前往https://github.com/wjn1996/LLMs-NLP-Algo即可获得全部如下资料
机器学习深度学习基础与进阶干货笔记、PPT、代码NLP基础与进阶干货笔记、PPT、代码大模型全套体系——预训练语言模型基础、知识预训练、大模型一览、大模型训练与优化、大模型调优、类ChatGPT的复现与应用等大厂算法刷题
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/909723.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!