磁贴式网站模板手机网站建设规划图
news/
2025/9/23 8:08:01/
文章来源:
磁贴式网站模板,手机网站建设规划图,百度推广后台登录首页,推广途径有哪些预训练GPU内存分析#xff1a;
GPU占用内存 模型权重 梯度 优化器内存#xff08;动量估计和梯度方差#xff09; 中间激活值*batchsize GPU初始化内存
训练流程
#xff08;选基座 — 扩词表 — 采样切分数据 — 设置学习参数 — 训练 —
GPU占用内存 模型权重 梯度 优化器内存动量估计和梯度方差 中间激活值*batchsize GPU初始化内存
训练流程
选基座 — 扩词表 — 采样切分数据 — 设置学习参数 — 训练 — 能力测评 https://zhuanlan.zhihu.com/p/636270877
1.选择一个预训练的模型基座
大部分优秀的语言模型都没有进行充分的中文预训练因此许多工作都尝试将在英语上表现比较优秀的模型用中文语料进行二次预训练。比如[Chinese-LLaMA-Alpaca]。
2.Tokenizer Training
2.1 tokenizer 是将一句话进行切词并转化成模型可以学习的数字格式
tokenizer 有 2 种常用形式WordPiece 和 BPE。 WordPiece将所有的「常用字」和「常用词」都存到词表中当需要切词的时候就从词表里面查找即可。BERT 就使用的这种切词法。 当遇到词表中不存在的字词时tokenizer 会将其标记为特殊的字符 [UNK] Byte-level BPEBBPE按照 unicode 编码作为最小粒度。对于中文来讲一个汉字是由 3 个 unicode 编码组成的LLaMA 的 tokenizer 对中文就是如此 能用unicode表示的汉字都可以训练但模型需要通过充分学习来知道合法的 unicode 序列。当训练不充分则会出现乱码不合法的 unicode 序列
2.2 词表扩充
为了降低模型的训练难度将一些常见的汉字 token 手动添加到原来的 tokenizer 中。
Chinese LLaMA 在原始 tokenizer 上新增了17953 个 tokens且加入 token 的大部分为汉字。BELLE 在 120w 行中文文本上训练出一个 5w 规模的 token 集合并将这部分 token 集合与原来的 LLaMA 词表做合并最后再在 3.2B 的中文语料上对这部分新扩展的 token embedding 做二次预训练。
3.预训练
输入语料让大模型进行Next Token Prediction 任务
3.1数据处理
开源数据集可以用于实验如果想突破性能则需要我们自己进行数据集构建。在 Finetune 任务中我们通常会直接使用 truncation 将超过阈值2048的文本给截断但在 Pretrain 任务中为了让模型充分提高语言的连贯能力是将长文章按照 seq_len2048作分割将切割后的向量喂给模型做训练。对不同的数据源会选择不同采样比相对较大的数据集会使用相对较大的采样比例使得模型不会太偏向于规模较大的数据集从而失去对规模小但作用大的数据集上的学习信息。
3.2 Warmup Learning Ratio 设置
在继续预训练中我们通常会使用 warmup 策略此时我们按照 2 种不同情况划分
当训练资源充足时应尽可能选择较大的学习率以更好的适配下游任务当资源不充足时更小的学习率和更长的预热步数或许是个更好的选择。
4. 模型效果测评
采用[PPL][BPC] 评估模型对于生成结果和目标文本的拟合程度测评生成流畅和通顺语句能力。测评模型知识蕴含能力中文知识能力测试数据集是 [C-Eval]涵盖1.4w 道选择题共 52 个学科。将题目写进 prompt 中并让模型续写 1 个 token判断这个续写 token 的答案是不是正确答案。使用 Five-shot 的方式给模型提供五个问答样例来让模型知道如何输出答案。
Five-shot评分
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/911859.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!