大模型训练_week3_day15_Llama概念_《穷途末路》

目录


前言

碎碎念:我翻山越岭,纵然这世间再也无人像你

梳理llama架构,和transformer很像,新学到 embedding后的词向量RMSnorm,和qk矩阵融合的Rope旋转编码,SwiGLU激活函数,GQA分组查询注意力机制


llama

分词器

l和l组合的概率高,所以把它重新组成为一个ll的词元

比如 it's 42! it, 's , 42, !

在自然语言处理中的 BPE 分词器的工作原理如下:

  1. 初始化:首先,将所有词汇表中的单词分解为单个字符或符号。例如,单词 “hello” 会被表示为["h", "e", "l", "l", "o"]

  2. 统计频率:接下来,统计所有字符对(相邻字符组合)的出现频率。例如,如果 “l” 和 “l” 出现在一起的频率最高,那么它们会被作为一个新的词元 “ll”。

  3. 合并频率最高的字符对:将出现频率最高的字符对合并成一个新的词元。然后重复这个过程,直到达到预定义的词元数量或不能再合并为止。

  4. 生成词汇表:最终生成的词汇表包含了从单个字符到更复杂的子词的所有词元,这些词元可以组合成原始的单词和短语。

分词完后通过id 到embedding去查token向量,id=279,就到大矩阵里拿280列向量

RMS对嵌入向量进行归一化

ROPE

先构建第一层的注意力机制,为什么不直接位置编码?

因为ROPE融入了QKV

RoPE(旋转位置编码)

RoPE 是一种高效的位置编码方法,通过旋转向量的方式将位置信息注入到查询(query)和键(key)向量中。

1.核心思想

  • 对查询向量和键向量进行旋转,旋转的角度与 token 的位置相关。

  • 旋转后的向量既保留了原始信息,又包含了位置信息。

2.公式

3.效果

  • 对于不同位置的相同 token(例如三个 “the”),RoPE 会生成不同的查询向量。

  • 旋转后的查询向量既包含了 token 的语义信息,也包含了位置信息。

为什么不用PE, ROPE优势是什么

Q和K旋转完了之后,V要不要旋转?

词和词之间的相对关系。 苹果性能好,怎么把苹果向手机上偏移呢

mask

上半角的矩阵代表后面单词对前面单词的影响,底下代表前面对后面的影响

姑且把纵向作为后面的单词,在decoder里 纵向的单词对横向即前面的单词是没影响的。所以把右上角的三角的矩阵掩码

再经过wo得到attention_score后先进行一次rms归一化

ffn

swishGLU 激活函数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1170392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

汇川中型PLC(AM、AC系列,CODESYS平台)高速采集(2ms)的一个方案

一、案例介绍高速数据采集要保证速度,也要保证时刻的准确性。在windows系统里,时间稳定性是个很难的问题。如果PLC发送的数据里带有时间信息,则可以由PLC来保证采样周期的稳定性。从V2.12版本开始,PLC-Recorder软件…

PyTorch Mobile部署,从模型优化到边缘设备落地

PyTorch Mobile是PyTorch官方推出的边缘端部署框架,能将训练好的PyTorch模型轻量化、量化后,部署到手机、嵌入式开发板(如RK3588、树莓派)、IoT设备等边缘终端,实现本地低延迟AI推理。本文从模型优化、格式转换、…

【毕业设计】基于SpringBoot的大学生体测数据管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java计算机毕设之基于SpringBoot的大学生体测数据管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【课程设计/毕业设计】基于SpringBoot学院设备报修管理系统设计与实现基于springboot的高校教室设备故障报修信息管理系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java计算机毕设之基于 Web Service 技术的警务数据交互平台设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

大盘风险控制策略分析报告 - 2026年01月16日

大盘风险控制策略分析报告 - 2026年01月16日body { font-family: "Microsoft YaHei", "Segoe UI", Tahoma, Geneva, Verdana, sans-serif; line-height: 1.6; color: rgba(51, 51, 51, 1); max-wi…

多智能体系统在品牌价值评估中的应用:量化无形资产

多智能体系统在品牌价值评估中的应用:量化无形资产 关键词:多智能体系统、品牌价值评估、量化无形资产、人工智能、数据分析 摘要:本文聚焦于多智能体系统在品牌价值评估中量化无形资产的应用。首先介绍了研究的背景、目的、预期读者和文档结…

AI Agent的对话系统在心理健康领域的应用

AI Agent的对话系统在心理健康领域的应用 关键词:AI Agent、对话系统、心理健康领域、自然语言处理、情感分析、心理咨询、智能陪伴 摘要:本文聚焦于AI Agent的对话系统在心理健康领域的应用。随着人工智能技术的飞速发展,AI Agent对话系统凭借其高效、便捷、可及性强等特点…

基于 Flutter × OpenHarmony 构建歌曲信息区域的实践解析

文章目录基于 Flutter OpenHarmony 构建歌曲信息区域的实践解析前言背景Flutter OpenHarmony 跨端开发介绍开发核心代码1. 外层 Padding:控制整体留白2. Column:纵向信息层级组织3. 歌曲标题 Text:视觉焦点4. 间距控制:信息节奏…

笔记05. 自由度

自由度:统计推断的核心桥梁 在数理统计中,自由度是连接样本与总体的关键概念,其核心价值在于让“用样本推断总体”从主观判断转化为可量化的科学分析。本文将遵循“为什么需要—本质是什么—实际怎么用”的逻辑,系…

基于 Flutter × OpenHarmony 构建播放器进度条区域的实践解析

文章目录基于 Flutter OpenHarmony 构建播放器进度条区域的实践解析前言背景Flutter OpenHarmony 跨端开发介绍开发核心代码代码结构解析心得总结基于 Flutter OpenHarmony 构建播放器进度条区域的实践解析 前言 在音乐播放器、视频播放器等多媒体应用中,进度条…

Java毕设项目:基于SpringBoot的大学生体测数据管理系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Object类:equal、super、toString

Object类:equal、super、toString1.Object类 地位:所有类的父类、超类 2.1toSpring方法 ①toString() 用打印方法传 一个对象,比如s,默认是调用s.toSpring()方法 根据它的源码得知,默认会返回“类名+@+16进制的…

cnblog批量上传图片脚本小记

原因 在博客园后台没发现能一次性上传多张图片的选项,功能 在vsc的插件里面也得每次先复制到粘贴板,再快捷键复制一张 之前某些情况上传需要上传多张图片,都是一张一张传的, 希望下次能有个简便的方法,所以用 ai …

Java毕设项目:基于 Web Service 技术的警务数据交互平台设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

计算机Java毕设实战-基于SpringBoot的校园设备维护报修系统基于springboot的高校教室设备故障报修信息管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

计算机Java毕设实战-基于SpringBoot的大学生体测数据管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

计算机Java毕设实战-基于 Web Service 技术的警务数据交互平台设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Linux 内网环境构建与配置深度解析

在企业级 IT 基础设施的搭建过程中,内网环境的稳定性直接决定了服务集群的运行质量。Linux 系统作为服务器领域的主流操作系统,其网络配置的灵活性极高,但也对管理者的严谨性提出了挑战。构建一个高效的内网,需要从物理链路的识别…